US7,266,496 B2
整個語音辨識系統是以模組化與IP的方式設計,以有彈性的方式將 語音訊號處理分割為四塊模組:系統控制模組、自相關及線性預測 參數模組、倒頻譜參數模組、辨識模組四大模組構成,各模組可自 成一個IP。我們提出一套具有訓練模式及辨識模式的完整語音辨識 系統的VLSI架構,可以配合各種不同之商品及應用需求進行Design Reuse,大量縮短上市時間 (Time to Market),對開發成本之節省 及搶佔競爭激烈之3C市場大有助益。其特點如下:1.以ASIC之方式 設計而成;2.特定語者語音辨識,使用者只需說一遍人名名稱即可完 成輸入以便辨識該名稱;3.可記憶64組資料(可擴充),每組2.4秒, 可在0.1秒內辨識完成;4.語音辨識率可達95.1%;5.工作頻率可達 70MHz;6.以十萬顆下線,每顆只需台幣約26元;以五萬顆下線,每 顆只需台幣約33元;7.本電路以模組化與IP的方式設計,各模組IP之 其他應用方式如下:(1) Autocorrelation & LPC 模組:例如:可將 LPC參數轉換成LSP參數,而運用於語音編碼上。(2) DTW模組:可針 對不同的輸入參數資料進行比對的工作,例如:Cepstrum參數或 MFCC參數。 As for speech recognition, we propose a VLSI chip which is capable of processing word recognition with high recognition rate. The chip is designed based on various useful modules, named autocorrelation&LPC module, cepstrum module, and DTW module. Each module can be regarded as an IP (Intellectual Property) which can further be adopted in other portable speech processing system on a chip. The features of the chip are summarized in the following: 1. Design strategy: ASIC 2. Recognition method: speaker-dependent and isolated-word 3. Maximum number of stored words (2-second duration): greater than 64 words (processing time less than 0.1 seconds) 4. Recognition rate: greater than 95.1% 5. Gate count: about 55K 6. Maximum operating frequency: 70MHz 7. Manufacturing cost: 26 NT dollars per chip based on 100,000 fabricated chips; 33 NT dollars per chip based on 50,000 fabricated chips
版權所有 © 國家科學及技術委員會 National Science and Technology Council All Rights Reserved.
建議使用IE 11或以上版本瀏覽器,最佳瀏覽解析度為1024x768以上|政府網站資料開放宣告
主辦單位:國家科學及技術委員會 執行單位:台灣經濟研究院 網站維護:台灣經濟研究院