發明
中華民國
098136225
I 413913
於DNA微陣列資料中探勘子空間分群之方法
國立中山大學
2013/11/01
DNA微陣列是在實驗性分子生物學上最新的發展之一,並且開啟了產生分子資訊以表現許多生物系統或臨床興趣之資料集的可能性,而分群技術已被證明能幫助理解基因功能、基因調節、細胞進程以及細胞亞型。研究人員證明出大部分的情況下,多筆基因會構成一種疾病,也就刺激研究者去找出某些基因在某些條件下有相似的表現。大部分的子空間分群模組都依據物件在所有條件或部分條件下的距離來定義其相似性,然而,物件間即使距離很遠也可能有很強烈的相關性。許多已提出的方法,例如:pCluster和zCluster,即為找出某些基因在某些條件下有一致性表現的子空間分群,然而,這兩個方法都包含很費時的步驟,也就是建構基因對的最大維度集合以及分佈其字首樹每個節點上的基因資訊。因此,在這篇論文中,我們提出一個以大項目集為基礎的分群演算法來改進pCluster和zCluster的缺點。首先,我們避免產生基因對的最大維度集合,我們只建構條件對的最大維度集合以降低處理時間。再來,我們轉換從條件對的最大維度集合中挖掘出最大可能基因集合的任務為挖掘出其大項目集的問題,我們利用了挖掘關聯式法則中大項目集的概念,其中大項目集表示在交易資料中出現次數夠多的項目所組成的集合。由於我們只對擁有夠多基因的子空間分群感興趣,因此我們值得去注意在條件對的最大維度集合中出現夠多次的基因集合;換句話說,我們想從條件對的最大維度集合中找出大項目集,因此我們便可獲得和夠多條件對有關的基因集合。在這一步驟中,我們善用一個有效找出大項目集的資料結構之一的FP-tree之修正版本,從條件對的最大維度集合中找出基因的大項目集。因此,我們便可以避免複雜的分佈過程,並且利用FP-tree大量地降低搜尋空間。最後,我們發展一個演算法從搜尋完FP-tree之後的基因集合和條件對中建構出最後的分群。由於我們只對夠大並且不屬於任何分群的分群感興趣,因此我們交替地合併或擴大基因集合及條件集合來建構盡可能大的子空間分群以滿足需求。根據模擬的結果,我們可以證明由於前人方法需要建構基因對的最大維度集合,所以我們提出的方法比前人的方法需要較短的處理時間。
本部(收文號1050043321)同意該校105年6月23日中產營字第1051400638號函申請終止維護專利35件(中山)。
產學營運及推廣教育處
(07)525-2000#2651
版權所有 © 國家科學及技術委員會 National Science and Technology Council All Rights Reserved.
建議使用IE 11或以上版本瀏覽器,最佳瀏覽解析度為1024x768以上|政府網站資料開放宣告
主辦單位:國家科學及技術委員會 執行單位:台灣經濟研究院 網站維護:台灣經濟研究院