科大訊飛電話(huà)語(yǔ)音識別InterReco
2.0——產(chǎn)品簡(jiǎn)介
2008/08/11
一、產(chǎn)品概述
電話(huà)語(yǔ)音識別引擎InterReco2.0可以為自助式電話(huà)語(yǔ)音系統提供完善的語(yǔ)音識別技術(shù)解決方案。集成InterReco2.0的自助式語(yǔ)音系統能夠為客戶(hù)提供全天候的優(yōu)質(zhì)語(yǔ)音服務(wù),從而確保以較低的投入顯著(zhù)提高客戶(hù)滿(mǎn)意度。
科大訊飛電話(huà)語(yǔ)音識別產(chǎn)品整合了科大訊飛研究院、清華訊飛語(yǔ)音實(shí)驗室及科大訊飛語(yǔ)音實(shí)驗室在語(yǔ)音識別技術(shù)上多年的積累,專(zhuān)門(mén)針對中文語(yǔ)音識別的技術(shù)特點(diǎn)進(jìn)行了全面優(yōu)化。對于中文語(yǔ)音識別應用中經(jīng)常面臨的方言口音、復雜信道和背景噪聲等問(wèn)題,依據從實(shí)際業(yè)務(wù)系統中收集的涵蓋不同方言和不同環(huán)境噪聲的海量語(yǔ)音數據,采用最新的區分性訓練方法進(jìn)行語(yǔ)音建模,從而使InterReco2.0在復雜應用環(huán)境下可以擁有良好的一致性效果表現,核心技術(shù)效果達到國際領(lǐng)先。InterReco2.0產(chǎn)品架構上延用了科大訊飛在語(yǔ)音合成中久經(jīng)錘煉的高穩定分布式語(yǔ)音平臺,可以滿(mǎn)足電信級應用的高可靠性要求。
二、產(chǎn)品功能:
InterReco2.0在復雜環(huán)境的識別效果均有不俗表現,產(chǎn)品考慮了呼叫中心、增值服務(wù)中的不同應用特點(diǎn),易于開(kāi)發(fā)集成及進(jìn)行業(yè)務(wù)開(kāi)發(fā),主要功能有如下:
- 大詞匯量、獨立于說(shuō)話(huà)人的健壯識別功能
識別系統能對多種語(yǔ)言進(jìn)行大詞匯量的識別,在中文識別方面使用了訊飛TTS引擎使用的詞典和文本分析技術(shù),能夠對語(yǔ)法內容進(jìn)行分詞處理,保證多音字的識別效果。
- 端點(diǎn)檢測與打斷(End Pointer && Barge-In)
端點(diǎn)檢測是對輸入的音頻流確定語(yǔ)句的起始和終止的處理過(guò)程。當找到語(yǔ)句的起始和終止點(diǎn)后,語(yǔ)句區向前后分別延伸預定的長(cháng)度。一旦檢測到語(yǔ)句的起始點(diǎn),語(yǔ)音開(kāi)始流向識別引擎,直到檢測到語(yǔ)句的終止點(diǎn)。通過(guò)這種方式,識別引擎在用戶(hù)在講話(huà)的同時(shí),已經(jīng)開(kāi)始處理講話(huà)的內容,而又不需要處理語(yǔ)音的起止處多余的靜音,從而節約CPU時(shí)間和網(wǎng)絡(luò )帶寬。
打斷功能使用戶(hù)可以打斷提示、作出響應,無(wú)需等到提示音結束播放。打斷功能使得用戶(hù)和系統間的交流更加快捷、自然,特別是系統的熟練用戶(hù)。
- 多識別結果和置信度(N-Best && CM)
對于有些應用程序,可能需要識別引擎產(chǎn)生可能的識別結果集,而不是一個(gè)最好的結果。系統提供了可能的識別結果列表,并按可能性從高到低排列。
語(yǔ)音識別引擎在返回識別結果時(shí)會(huì )攜帶該識別結果的置信度,對多個(gè)識別結果給出其可能性的指標,準確的置信度輸出可以為識別結果的分析和后續處理提供依據,改善在用戶(hù)語(yǔ)音不清晰、語(yǔ)義不明確時(shí)的效果體驗。
- 語(yǔ)音錄入(Voice Enrollment)
允許用戶(hù)通過(guò)本人語(yǔ)音來(lái)向動(dòng)態(tài)語(yǔ)法增加命令或詞表。這種方式不但能夠有效利用用戶(hù)個(gè)性化的語(yǔ)音,提高系統的識別準確率;而且能夠提高用戶(hù)輸入詞表的方便性和靈活性。例如,在語(yǔ)音通訊錄的應用中,用戶(hù)可以通過(guò)語(yǔ)音的方式來(lái)添加通訊錄,從而使用戶(hù)可以隨時(shí)隨地修改自己的通訊錄。
- 動(dòng)態(tài)語(yǔ)法
動(dòng)態(tài)語(yǔ)法是由應用程序在運行時(shí)動(dòng)態(tài)創(chuàng )建和修改的語(yǔ)法。這在應用程序詞匯必須在運行時(shí)才能完全確定的情況下是必不可少的。
- 呼叫日志(Call Logging)
語(yǔ)音識別的調用日志在系統中有著(zhù)非常重要的作用,該日志記錄了輸入的音頻、加載的語(yǔ)法、識別過(guò)程的中間結果、識別模塊調用過(guò)程、識別使用的各種參數、識別結果以及當時(shí)的系統環(huán)境信息。這些數據是效果分析的依據,詳盡的Call-Log是效果優(yōu)化的基礎。
- 說(shuō)話(huà)人自適應
當用戶(hù)多次使用同一識別系統時(shí),識別引擎能夠逐步適應其口音,使該使用者的識別效果逐步提高。同時(shí),如果預先給定特定說(shuō)話(huà)人的數據,系統可以針對特定說(shuō)話(huà)人進(jìn)行自適應訓練以獲得更加適合其發(fā)音特征的語(yǔ)音模型,使該說(shuō)話(huà)人在使用系統時(shí),識別效果更好。
- 多槽識別
語(yǔ)音識別的槽(Slot)代表一個(gè)關(guān)鍵字,即在一次識別中可以識別多個(gè)關(guān)鍵字,這種識別模式可以提高語(yǔ)音識別的使用效率和用戶(hù)體驗。
- 模型自適應
針對每個(gè)應用專(zhuān)門(mén)優(yōu)化通用模型從而更加適合應用:包括方言和口音的說(shuō)話(huà)人特征,無(wú)線(xiàn)設備、VoIP設備等通道特征,詞匯和環(huán)境噪聲等應用特征。
InterReco2.0除了在核心技術(shù)指標上一系列優(yōu)異的表現外,針對語(yǔ)音識別集成開(kāi)發(fā)和業(yè)務(wù)實(shí)現難的問(wèn)題,InterReco2.0還提供了一整套易用的開(kāi)發(fā)接口和工具,使語(yǔ)音識別應用的合作伙伴可以基于該引擎方便的開(kāi)發(fā)應用系統,并通過(guò)所提供的工具及時(shí)發(fā)現開(kāi)發(fā)中出現的問(wèn)題。此外InterReco2.0在業(yè)務(wù)實(shí)現階段,提供了簡(jiǎn)單易用的語(yǔ)法設計和實(shí)現方式,用戶(hù)甚至寫(xiě)漢字就可以實(shí)現語(yǔ)音識別語(yǔ)法的編寫(xiě),系統還提供了語(yǔ)法向導,其中已經(jīng)內置了常用業(yè)務(wù)語(yǔ)法,使用戶(hù)可以更簡(jiǎn)單的使用語(yǔ)音識別系統。相信隨著(zhù)科大訊飛發(fā)布國際領(lǐng)先的電信級中文語(yǔ)音識別產(chǎn)品,通過(guò)和合作伙伴的共同努力,語(yǔ)音識別將為合作伙伴帶來(lái)更大的增值空間,中文語(yǔ)音識別產(chǎn)業(yè)將獲得更快的發(fā)展。
CTI論壇編輯
相關(guān)鏈接:
会理县|
久治县|
乳山市|
宕昌县|
夹江县|
沭阳县|
德庆县|
景宁|
德化县|
栾川县|
托克托县|
临城县|
武功县|
尉犁县|
徐闻县|
邓州市|
汶上县|
穆棱市|
包头市|
九龙县|
电白县|
天峨县|
二连浩特市|
蕉岭县|
车险|
兴国县|
张家港市|
颍上县|
靖西县|
招远市|
色达县|
平果县|
肥东县|
安阳市|
乌鲁木齐市|
攀枝花市|
敖汉旗|
星子县|
定安县|
黑山县|
衡东县|