發明
中華民國
093110811
I 237780
半結構化文件的資訊擷取方法
國立中央大學
2005/08/11
本發明提供一種線上資訊擷取方法,稱為線上擷取規則分析(Online Extraction Rule Analysis, OLERA),適用於半結構化文件的資訊擷取(Information Extraction),以使用者框 選感興趣的目標區域、系統解析文件且作階層化編碼以進一步擷取、最後透過屬性的指定完成 所需要擷取資訊的綱目(schema),讓使用者不必經過繁複的標示便可將資料完整的擷取,並解 決單一記錄以及多筆記錄的網頁擷取問題。 The present invention provides an efficient automated method for online information extraction. The proposed extractor OLERA converts semi-structured documents into structured data as a user encloses an interesting block from one of the training pages via hierarchy page encoding, approximate pattern matching and multi-string alignment. Finally, a “specify” procedure assigns the schema of the extraction target for extraction rule generation.
本部(收文號1050047992)同意該校105年7月7日中大研字第1051430192號函申請終止維護專利97件(中央)
智權技轉組
03-4227151轉27076
版權所有 © 國家科學及技術委員會 National Science and Technology Council All Rights Reserved.
建議使用IE 11或以上版本瀏覽器,最佳瀏覽解析度為1024x768以上|政府網站資料開放宣告
主辦單位:國家科學及技術委員會 執行單位:台灣經濟研究院 網站維護:台灣經濟研究院