發明
中華民國
101146988
I 482038
近似複本之偵測方法
國立中山大學
2015/04/21
在偵測文件之前需要先建立文件模型,將文件分為數個句子,每一個句子有數個詞彙,每一個詞彙有對應的權重值,並以句子特徵作為文件的特徵擷取單位,將每一個句子中的詞彙按照權重值來排序,選取權重較高的關鍵詞彙數個作為該句子的特徵,文件中所有的句子特徵作為該文件的特徵集合,可以根據偵測的需要調整選取的關鍵詞彙數量,取得文件的特徵集合後,將這些特徵轉成特徵向量,作為該文件的代表。使用相似度函數計算兩篇文件其特徵向量的差異程度,得到相似度向量。將已知類別的相似度向量作訓練樣本,採用支持向量機的策略來訓練分類器,用以辨別兩篇文件的相似度向量是否為近似複本關係。 We have to setup document model before document detecting. And divided document by sentence. Every sentence has several term. Each term has term weight values. And sentence feature is the unit of document feature set. Sentence feature is the set of high weight value terms in each sentence. The feature selection of document feature set is the collected sentence features. Transform document feature set into feature vector as the representative of the document. The similarity value of two document’s feature vector measured by similarity function to obtain similarity vector. The similarity vectors are training samples which are known classes. And Support vector machine is the training method to train a classifier. The classifier can distinguish the relation of two documents is near-duplicate or not by similarity vector.
本部(收文號1070007387)同意該校107年1月23日中產營字第1071400099號函申請終止維護專利(中山)
產學營運及推廣教育處
(07)525-2000#2651
版權所有 © 國家科學及技術委員會 National Science and Technology Council All Rights Reserved.
建議使用IE 11或以上版本瀏覽器,最佳瀏覽解析度為1024x768以上|政府網站資料開放宣告
主辦單位:國家科學及技術委員會 執行單位:台灣經濟研究院 網站維護:台灣經濟研究院