1.1 概述
中科信利連續(xù)語(yǔ)音識(shí)別引擎,針對(duì)連續(xù)音頻流(即來(lái)自說(shuō)話人直接錄入的語(yǔ)音,或者電話或其他音視頻領(lǐng)域的音頻信號(hào))進(jìn)行識(shí)別,將音頻信息自動(dòng)轉(zhuǎn)化成文字。覆蓋漢語(yǔ)中絕大多數(shù)詞語(yǔ),適用于說(shuō)普通話的任何人群。輸出的結(jié)果都是漢字,兼容數(shù)字。
在輸入的聲音中,檢測(cè)出可靠的語(yǔ)音,排除靜音、背景噪聲、音樂等,判斷男女,實(shí)時(shí)送入語(yǔ)音識(shí)別解碼器進(jìn)行識(shí)別。
識(shí)別引擎把音視頻中提取出的語(yǔ)音分成25毫秒一幀,提取有用特征,然后識(shí)別出一些類似拼音的結(jié)果(聲學(xué)模型),再根據(jù)漢語(yǔ)字詞句之間的搭配概率(語(yǔ)言模型),綜合考慮。當(dāng)然,考慮的越多(beam路徑越大),識(shí)別準(zhǔn)確率相對(duì)提高,同時(shí)消耗的時(shí)間就增長(zhǎng)了;所以我們有優(yōu)化策略,及時(shí)排除不可能的結(jié)果,避免系統(tǒng)過(guò)慢。用戶可以通過(guò)調(diào)節(jié)這些參數(shù)來(lái)平衡識(shí)別質(zhì)量和速度,以滿足實(shí)際的需要。
最后返回的識(shí)別結(jié)果,軟件以漢語(yǔ)中基本詞語(yǔ)為單位給出了多種可能(1到十幾種)以及可能性大小供用戶參考選擇。
需要說(shuō)明的是,對(duì)識(shí)別正確率以及識(shí)別速度來(lái)說(shuō),輸入語(yǔ)音(普通話)的質(zhì)量(采音過(guò)程)是很重要的。采音時(shí)應(yīng)盡可能的排除噪聲和音樂、增大語(yǔ)音,識(shí)別效果就會(huì)好得多,因此建議用戶在采音的時(shí)候選用質(zhì)量較好的麥克風(fēng)。
另外,系統(tǒng)在檢測(cè)是否有語(yǔ)音信號(hào)時(shí)可能會(huì)帶來(lái)一定的時(shí)間滯后,用戶在實(shí)時(shí)錄入時(shí)在每句話結(jié)束后,需要略有停頓,這樣可以提高系統(tǒng)語(yǔ)音檢測(cè)的速度和精度。語(yǔ)音檢測(cè)的越好,識(shí)別引擎的識(shí)別效果會(huì)越好。
1.2 引擎架構(gòu)和基本原理
下圖給出了連續(xù)語(yǔ)音識(shí)別引擎的基本架構(gòu)圖:

圖1.語(yǔ)音識(shí)別引擎架構(gòu)圖
系統(tǒng)流程
如圖1所示,首先對(duì)輸入的音頻數(shù)據(jù)進(jìn)行自動(dòng)分類,過(guò)濾掉彩鈴、振鈴、傳真、音樂以及其他噪音,保留有效用戶語(yǔ)音數(shù)據(jù),然后進(jìn)行自動(dòng)分段和端點(diǎn)檢測(cè),獲取逐句的有效語(yǔ)音數(shù)據(jù),然后將其送入特征提取和處理模塊,接著對(duì)于提取的聲學(xué)特征進(jìn)行解碼,解碼過(guò)程利用發(fā)音字典、聲學(xué)模型、語(yǔ)言模型等信息構(gòu)建WFST搜索空間,在搜索空間內(nèi)尋找匹配概率最大的最優(yōu)路徑,得到識(shí)別結(jié)果。后續(xù)可采用重估模塊,增加其他知識(shí)源,進(jìn)一步提升語(yǔ)音識(shí)別系統(tǒng)性能。
核心技術(shù)特點(diǎn)
- 語(yǔ)音端點(diǎn)檢測(cè)
采用兩遍的維納濾波技術(shù)消除背景噪聲;采用垃圾語(yǔ)音混合高斯建模的方法去除垃圾語(yǔ)音(笑聲、咳嗽聲等非自然人語(yǔ)音);采用諧波檢測(cè)技術(shù)檢測(cè)語(yǔ)音起始點(diǎn)。
- 特征提取
從人的聽覺感知及發(fā)音機(jī)理等現(xiàn)有基礎(chǔ)研究成果出發(fā),分析提取具備抗噪性、鑒別性、互補(bǔ)性的特征參數(shù)。
采用PLP/CMN/HLDA/VTLN/高斯化等穩(wěn)健性特征提取和處理技術(shù),減少信道影響,進(jìn)一步提高特征的區(qū)分性。
- 聲學(xué)建模:
采用基于深度神經(jīng)網(wǎng)絡(luò)DNN的聲學(xué)建模技術(shù),采用業(yè)界領(lǐng)先的鑒別性模型訓(xùn)練算法,大幅度提升語(yǔ)音識(shí)別系統(tǒng)性能。在訓(xùn)練數(shù)據(jù)、特征提取等方面都充分考慮了自然環(huán)境噪聲的干擾,并且采用多條件的訓(xùn)練策略,能夠顯著提高對(duì)于噪聲的穩(wěn)健性。采用大量實(shí)網(wǎng)語(yǔ)音的訓(xùn)練數(shù)據(jù)庫(kù),適應(yīng)用戶自然口語(yǔ)發(fā)音特點(diǎn)和地方口音特點(diǎn)。
- 語(yǔ)言建模
充分利用網(wǎng)上業(yè)務(wù)語(yǔ)料,采用高階文法的統(tǒng)計(jì)語(yǔ)言模型技術(shù)。
積累了大量的分類文本語(yǔ)料(1T左右),使得語(yǔ)言模型能夠很好地覆蓋各個(gè)領(lǐng)域。同時(shí)對(duì)語(yǔ)言模型存取速度進(jìn)行了大幅度優(yōu)化以滿足實(shí)用需求。
- 解碼算法
采用基于WFST的Cross-word靜態(tài)搜索空間構(gòu)建方法,有效地單遍集成各種知識(shí)源,將聲學(xué)模型、聲學(xué)上下文、發(fā)音詞典、語(yǔ)言模型等靜態(tài)編譯成狀態(tài)網(wǎng)絡(luò),通過(guò)充分的前向后向歸并算法優(yōu)化網(wǎng)絡(luò)。在識(shí)別率相當(dāng)?shù)那闆r下,比WFST開源工具包解碼速度快5倍以上。
- 自學(xué)習(xí)
采用模型自學(xué)習(xí)技術(shù),基于實(shí)網(wǎng)語(yǔ)音數(shù)據(jù)進(jìn)行聲學(xué)模型和語(yǔ)言模型的自適應(yīng),適應(yīng)于多種地區(qū)的用戶口音。
1.3 引擎應(yīng)用模式
中科信利連續(xù)語(yǔ)音識(shí)別引擎API提供兩種應(yīng)用模式:
一種是在線實(shí)時(shí)錄音,檢測(cè)語(yǔ)音并進(jìn)行識(shí)別。這種方法適合用于需要實(shí)時(shí)獲得講話內(nèi)容的場(chǎng)合。目前可以在各類會(huì)議討論中進(jìn)行開發(fā)使用。
另一種是離線讀入錄音文件進(jìn)行識(shí)別,可以充分的利用聚類、實(shí)時(shí)自適應(yīng)等技術(shù),把語(yǔ)音的內(nèi)容充分分析,進(jìn)一步提高識(shí)別準(zhǔn)確度。這種模式適用于希望取得精確文本內(nèi)容,而對(duì)時(shí)間要求不高的應(yīng)用。
2 中科信利連續(xù)語(yǔ)音識(shí)別引擎的功能和性能
2.1 連續(xù)語(yǔ)音識(shí)別引擎的特點(diǎn)和性能
核心引擎采用中科信利具有自主知識(shí)產(chǎn)權(quán)的國(guó)際領(lǐng)先的大詞匯量連續(xù)語(yǔ)音識(shí)別技術(shù)。
能夠自動(dòng)將連續(xù)語(yǔ)音的內(nèi)容轉(zhuǎn)成文字,支持在線語(yǔ)音流識(shí)別或離線語(yǔ)音數(shù)據(jù)識(shí)別。
可以實(shí)時(shí)對(duì)語(yǔ)音分段,判別類型,可自動(dòng)分辨和過(guò)濾背景音樂、噪聲等非表義音頻段,對(duì)語(yǔ)音分男女進(jìn)行識(shí)別。
識(shí)別結(jié)果除了文字外,還可同時(shí)給出時(shí)間索引信息(精確到每個(gè)字),有利于進(jìn)行多媒體信息檢索;多候選信息為人工校對(duì)提供方便。
能夠達(dá)到較高的識(shí)別準(zhǔn)確率
引擎準(zhǔn)確率性能:
- 對(duì)于朗讀類型語(yǔ)音(如:手機(jī)語(yǔ)音搜索或輸入類語(yǔ)音、廣播電視新聞等),識(shí)別準(zhǔn)確率在90%以上,經(jīng)過(guò)模型優(yōu)化訓(xùn)練以后能達(dá)到95%。
- 對(duì)于自然對(duì)話類型語(yǔ)音(如:電視訪談?wù)Z音或電話自然交談?wù)Z音),識(shí)別準(zhǔn)確率為85%左右,經(jīng)過(guò)模型優(yōu)化訓(xùn)練以后能夠達(dá)到90%。
引擎速度性能:
- 在普通臺(tái)式機(jī)上可以達(dá)到1倍實(shí)時(shí)。
- 并發(fā)性:針對(duì)普通服務(wù)器(IntelXeonE5**雙cpu,每cpu六核),可支持24路語(yǔ)音數(shù)據(jù)流的實(shí)時(shí)識(shí)別(或相當(dāng)于機(jī)器1小時(shí)能夠處理24小時(shí)的語(yǔ)音數(shù)據(jù))。
支持說(shuō)話人口音自適應(yīng)(聲學(xué)自適應(yīng))和領(lǐng)域語(yǔ)料自適應(yīng)(語(yǔ)言自適應(yīng))
核心算法支持海量并行處理,多線程
核心算法與語(yǔ)種無(wú)關(guān),即系統(tǒng)語(yǔ)種可移植,支持漢語(yǔ)普通話、粵語(yǔ)和英語(yǔ)等語(yǔ)言的識(shí)別
引擎提供標(biāo)準(zhǔn)C接口,可供C/C++及各種語(yǔ)言的開發(fā)者直接調(diào)用。
能夠提供方便靈活的開發(fā)接口,多項(xiàng)參數(shù)可調(diào),使用戶可以方便靈活地進(jìn)行應(yīng)用開發(fā)。
2.2 連續(xù)語(yǔ)音識(shí)別引擎資源配置
(一) 硬件環(huán)境
PC/工作站/服務(wù)器:
- CPU:性能相當(dāng)于Intel酷睿2.2GHZ以上或兼容,雙核
- 內(nèi)存:8GB以上(建議為16GB),200GB以上硬盤
(二) 軟件環(huán)境
PC/工作站/服務(wù)器:WINXP/Win7/WinServer2008等操作系統(tǒng),或Linux操作系統(tǒng)
2.3 連續(xù)語(yǔ)音識(shí)別引擎的應(yīng)用
在智能客服語(yǔ)音導(dǎo)航、客服錄音質(zhì)量檢測(cè)、錄音文本自動(dòng)語(yǔ)音錄入、Internet信息檢索、多媒體信息檢索、廣電監(jiān)控系統(tǒng)等領(lǐng)域具有相當(dāng)廣泛的用途。