發明
中華民國
107122505
I 695277
自動化網站資料蒐集方法
國立臺灣師範大學
2020/06/01
自動詞彙聯想流程,包含一自動化語料搜集演算以及一自動化詞彙聯想演算,用以辨別特定領域資料集中的關聯詞彙集合;以及一視覺化方法,用以將關聯詞彙集合以自動化的處理流程,以網絡視覺化的方式來呈現資料處理結果。自動詞彙識別演算時,所使用的特定領域資料來源,是自動資料搜集演算採集上特定場域的網站中的文字,將網頁內容轉成文本資料集。整個過程分為以下幾個步驟:首先,先將資料集整理成為以特殊字符區分開來的特定資料格式集。第二,分別使用word2vec和LDA兩種模型找出關聯詞彙組,並且對這兩個詞彙組作交集。此集合包含多筆記錄,每筆記錄包含兩個欄位,詞彙名稱以及相關詞彙欄位。視覺化系統將會依據此結構化資料集繪製成詞彙網絡。
產學合作組
77341329
版權所有 © 國家科學及技術委員會 National Science and Technology Council All Rights Reserved.
建議使用IE 11或以上版本瀏覽器,最佳瀏覽解析度為1024x768以上|政府網站資料開放宣告
主辦單位:國家科學及技術委員會 執行單位:台灣經濟研究院 網站維護:台灣經濟研究院