發明
中華民國
100113975
I 452477
以模糊相似度與K最近鄰居法為基礎之多標籤文件分類方法
國立中山大學
2014/09/11
在網路資訊爆炸的時代,搜尋引擎成為人們獲得資訊不可或缺的工具。好的搜尋引擎不僅要找出跟查詢相關的網頁文件,還要盡可能的提高查詢的效率,在各種改善方法中,事先對網頁文件內容進行分類是主要的方法之一。一般網頁資料通常以文件格式儲存,包含其內容、程式區塊、鏈結等訊息。利用文件內容來表示一個網頁,可以透過文件分類方法找出垃圾網頁內容跟一般網頁內容之間的辨別方式。在處理文件資料時通常以向量空間模型(vector space model)來描述一個文件內容。現有的文件分類方法大多以單標籤資料為訓練樣本下所開發出來的自動分類方法。然而,事實上在現實社會中真的每一個文件只能屬於某一個類別嗎?答案明顯是否定的。當我們看到一則新聞描述運動簽賭案件時,可以將其視為社會新聞也可以視為運動新聞,如果有藝人參與其中又可以在娛樂新聞中看到同一個事件;當我們閱讀一本關於清朝康熙的歷史小說,可以將此小說自動辨認為人物、歷史、休閒等相關類別。這種可以同時屬於多個類別的資料,我們稱之為多標籤(multi-label)文件。本發明透過模糊相似度的運算在進行最近K鄰居法進行分類時優先選擇較相似的群組,利用這些較相似群組中的資料來進行最近K鄰居法的訓練與測試可以提升分類方法的執行效能。 We proposed an efficient approach, FSKNN, which employs fuzzy similarity measure (FSM) and k nearest neighbors (KNN), for multi-label text classification. One of the problems associated with KNN-like approaches is its demanding computational cost in finding the k nearest neighbors from all the training patterns. For FSKNN, FSM is used to group the training patterns into clusters. Then only the training documents in those clusters whose fuzzy similarities to the document exceed a predesignated threshold are considered in finding the k nearest neighbors for the document. An unseen document is labeled based on its k nearest neighbors using the maximum a posteriori estimate. Experimental results show that our proposed method can work more effectively than other methods.
本部(收文號1060046158)同意該校106年7月7日中產營字第1061400726號函申請終止維護專利
產學營運及推廣教育處
(07)525-2000#2651
版權所有 © 國家科學及技術委員會 National Science and Technology Council All Rights Reserved.
建議使用IE 11或以上版本瀏覽器,最佳瀏覽解析度為1024x768以上|政府網站資料開放宣告
主辦單位:國家科學及技術委員會 執行單位:台灣經濟研究院 網站維護:台灣經濟研究院