半結構化文件的資訊擷取方法 | 專利查詢

半結構化文件的資訊擷取方法


專利類型

發明

專利國別 (專利申請國家)

中華民國

專利申請案號

093110811

專利證號

I 237780

專利獲證名稱

半結構化文件的資訊擷取方法

專利所屬機關 (申請機關)

國立中央大學

獲證日期

2005/08/11

技術說明

本發明提供一種線上資訊擷取方法,稱為線上擷取規則分析(Online Extraction Rule Analysis, OLERA),適用於半結構化文件的資訊擷取(Information Extraction),以使用者框 選感興趣的目標區域、系統解析文件且作階層化編碼以進一步擷取、最後透過屬性的指定完成 所需要擷取資訊的綱目(schema),讓使用者不必經過繁複的標示便可將資料完整的擷取,並解 決單一記錄以及多筆記錄的網頁擷取問題。 The present invention provides an efficient automated method for online information extraction. The proposed extractor OLERA converts semi-structured documents into structured data as a user encloses an interesting block from one of the training pages via hierarchy page encoding, approximate pattern matching and multi-string alignment. Finally, a “specify” procedure assigns the schema of the extraction target for extraction rule generation.

備註

本部(收文號1050047992)同意該校105年7月7日中大研字第1051430192號函申請終止維護專利97件(中央)

連絡單位 (專責單位/部門名稱)

智權技轉組

連絡電話

03-4227151轉27076


版權所有 © 國家科學及技術委員會 National Science and Technology Council All Rights Reserved.
建議使用IE 11或以上版本瀏覽器,最佳瀏覽解析度為1024x768以上|政府網站資料開放宣告
主辦單位:國家科學及技術委員會 執行單位:台灣經濟研究院 網站維護:台灣經濟研究院