首頁(yè)>>廠商>>軟件開(kāi)發(fā)商>>南京北極星軟件

高端人聲識(shí)別技術(shù)的研究與應(yīng)用

2001/08/02

一、 技術(shù)背景

是否有過(guò)這樣的經(jīng)歷?已經(jīng)是某某企業(yè)呼叫中心的常客了,但撥通該呼叫中心的號(hào)碼時(shí),還是必須向客服人員解釋你是他們某某產(chǎn)品的用戶,而今你必須獲得他們的維修服務(wù)。這個(gè)自報(bào)家門(mén)的工作其實(shí)足夠繁瑣到令你放棄這次呼叫。

但有一種新型的技術(shù)可以讓你在撥通電話、發(fā)出第一個(gè)音節(jié)時(shí)就被“驗(yàn)明身份”。設(shè)想你撥打一個(gè)很久以前曾撥打過(guò)的呼叫中心號(hào)碼,準(zhǔn)備詢問(wèn)呼叫中心的客服人員你罷工的油煙機(jī)該找誰(shuí)修理。根據(jù)語(yǔ)音提示進(jìn)入服務(wù)區(qū)后,“hi,我…”你的請(qǐng)求還沒(méi)有說(shuō)完,客服小姐已經(jīng)在向你問(wèn)候了:“王女士,您的油煙機(jī)用的怎么樣了?”

在這個(gè)過(guò)程中,客服小姐是利用呼叫中心的SR系統(tǒng),根據(jù)王女士的聲音,對(duì)其身份進(jìn)行鑒別的。所以無(wú)需浪費(fèi)任何時(shí)間,客服小姐在第一時(shí)間知道電話請(qǐng)求者是王女士。至于她有一臺(tái)該呼叫中心所屬企業(yè)售出的油煙機(jī)的事情,客服小姐是從系統(tǒng)的數(shù)據(jù)庫(kù)里知道的。

人聲識(shí)別技術(shù)(SR——Speaker Recognition)是一種以話音對(duì)說(shuō)話人進(jìn)行區(qū)分,從而進(jìn)行身份鑒別與認(rèn)證的技術(shù)。墜落在中國(guó)海南的美國(guó)EP-3飛機(jī)被宣稱藏有大量說(shuō)話人識(shí)別技術(shù)的機(jī)密,據(jù)說(shuō)其技術(shù)水平已經(jīng)可以區(qū)分出“是誰(shuí)打的嗝兒”。在國(guó)外,說(shuō)話人識(shí)別技術(shù)被廣泛研究,也已有少量成熟產(chǎn)品問(wèn)世。AT&T、TI(美國(guó)德州儀器公司)與美國(guó)著名的通訊公司Sprint已經(jīng)開(kāi)始在聲音識(shí)別領(lǐng)域的實(shí)驗(yàn)和實(shí)際的應(yīng)用。

說(shuō)話人識(shí)別技術(shù)有著廣闊的市場(chǎng)應(yīng)用前景。通過(guò)SR技術(shù),可以利用人本身的生物特性進(jìn)行身份鑒別,如給公安部門(mén)進(jìn)行語(yǔ)音驗(yàn)證、對(duì)一般用戶進(jìn)行防盜門(mén)開(kāi)啟等。在互聯(lián)網(wǎng)應(yīng)用及通信領(lǐng)域,SR技術(shù)可以應(yīng)用于諸如聲音撥號(hào)、電話銀行、電話購(gòu)物、數(shù)據(jù)庫(kù)訪問(wèn)、信息服務(wù)、語(yǔ)音Email、安全控制、計(jì)算機(jī)遠(yuǎn)程登陸等。

在呼叫中心應(yīng)用上,SR技術(shù)同樣可以提供更加個(gè)性化的人機(jī)交互界面。當(dāng)顧客以電話方式對(duì)呼叫中心進(jìn)行請(qǐng)求時(shí),系統(tǒng)能夠根據(jù)話音判斷出來(lái)者的身份,從而提供更個(gè)性化、更貼心的服務(wù)。在國(guó)內(nèi)的SR研究中,已經(jīng)處于怎樣的進(jìn)展水平?據(jù)了解,南京北極星軟件公司的研究走在了國(guó)內(nèi)其他廠商的前列,其采用SR技術(shù)構(gòu)造的呼叫中心產(chǎn)品也即將推出。

二、技術(shù)原理

SR有著深刻的技術(shù)背景。其基本原理是通過(guò)分析人的發(fā)聲和聽(tīng)覺(jué),為每個(gè)人構(gòu)造一個(gè)獨(dú)一無(wú)二的數(shù)學(xué)模型,由計(jì)算機(jī)對(duì)模型和實(shí)際輸入的語(yǔ)音進(jìn)行精確匹配,根據(jù)匹配結(jié)果辨認(rèn)出說(shuō)話人是誰(shuí)。該原理同說(shuō)話人的生理特性和行為特性密切相關(guān)。“人”的生物特性既存在于聲譜表面(聲道特性),也存在于聲音的來(lái)源或數(shù)個(gè)不連續(xù)的聲音片斷。從人的這些特性中提取出有效的音頻特征,進(jìn)行數(shù)學(xué)建模,并將與之相關(guān)的資料存進(jìn)數(shù)據(jù)庫(kù)。SR服務(wù)器根據(jù)輸入的音頻特征在數(shù)據(jù)庫(kù)里進(jìn)行檢索,從而進(jìn)行精確匹配。

在北極星公司的研究中,構(gòu)造了“訓(xùn)練模塊”和“識(shí)別模塊”,兩種模塊使用同樣的數(shù)學(xué)算法和模型。

訓(xùn)練模塊

訓(xùn)練模塊又由兩個(gè)部分組成:音頻特征提取部分和構(gòu)造數(shù)學(xué)模型部分。

音頻特征提取時(shí),根據(jù)人的發(fā)聲原理和聽(tīng)覺(jué)原理,采用了MFCC和LPCC的特征提出算法。該算法可以將人的聲音提取出能量分布譜。這種算法能從聲音數(shù)據(jù)中獲得說(shuō)話人的獨(dú)特特征。但是當(dāng)人說(shuō)不同的話時(shí),分布譜會(huì)受到影響。也就是說(shuō)即使是同一個(gè)人,如果說(shuō)的話不同,聲音分布譜也是不同的。為解決這個(gè)問(wèn)題,必須進(jìn)行第二部分,構(gòu)造數(shù)學(xué)模型。

構(gòu)造數(shù)學(xué)模型時(shí),使用了GMM和CHMM的算法。它可以將人在多個(gè)短時(shí)間內(nèi)的能量分布譜構(gòu)造成多個(gè)高斯分布。通過(guò)EM算法進(jìn)行訓(xùn)練,找出最為合理的高斯分布組。實(shí)驗(yàn)中,北極星為每個(gè)接受訓(xùn)練者構(gòu)造一個(gè)獨(dú)一無(wú)二的數(shù)學(xué)模型。

 

識(shí)別模塊

識(shí)別模塊也由兩個(gè)部分組成:音頻特征提取部分和數(shù)學(xué)模型的概率估計(jì)部分。

音頻特征提取時(shí),采用的方法和訓(xùn)練模塊相同。

做概率估計(jì)時(shí),將特征提取的結(jié)果帶入原來(lái)訓(xùn)練出來(lái)的數(shù)學(xué)模型中,計(jì)算出概率,將多個(gè)特征譜的概率取對(duì)數(shù)求和,即計(jì)算出該人符合這個(gè)數(shù)學(xué)模型的概率。概率較大時(shí)即可進(jìn)行身份確認(rèn)和檢驗(yàn)。

三、技術(shù)應(yīng)用

SR技術(shù)的應(yīng)用在國(guó)際上已經(jīng)比較成熟。Sprint的聲音電話卡(Voice Phone Card)擁有眾多的用戶。電話卡的擁有者只需對(duì)著電話念出對(duì)方的電話,智能卡根據(jù)聲音進(jìn)行鑒權(quán),判斷說(shuō)話人是否是電話卡的合法使用者,從而做出撥通與否的決定。在這種方式中,SR技術(shù)創(chuàng)造出的增值業(yè)務(wù)為運(yùn)營(yíng)商帶來(lái)豐厚的收益,也為我們的日常生活帶來(lái)便利。

在我國(guó),由于漢語(yǔ)言的獨(dú)特性,國(guó)外SR研究的技術(shù)成果無(wú)法直接使用。國(guó)內(nèi)眾多廠商也缺少語(yǔ)音方面的技術(shù)積累,進(jìn)入該領(lǐng)域的步伐相對(duì)滯后。為了將這種尖端的技術(shù)引入中國(guó),北極星軟件已經(jīng)開(kāi)始了自己的研究歷程,并致力于將現(xiàn)有的研究成果產(chǎn)業(yè)化,結(jié)合到其呼叫中心產(chǎn)品FineSupport IP Contact Center中來(lái),增加產(chǎn)品的實(shí)用性和科技含量。

SR技術(shù)的這種特性應(yīng)用在呼叫中心等語(yǔ)音產(chǎn)品上時(shí),能為之帶來(lái)前所未有的變革。

目前幾乎所有的呼叫中心都采用來(lái)電顯示的方法來(lái)對(duì)發(fā)起呼叫請(qǐng)求的用戶進(jìn)行身份鑒別。這種方法有極大的不確定性。當(dāng)不同的用戶使用同一個(gè)電話號(hào)碼進(jìn)行呼叫時(shí),呼叫中心系統(tǒng)無(wú)法對(duì)之進(jìn)行相應(yīng)的區(qū)分;另一個(gè)問(wèn)題,同一個(gè)客戶不會(huì)也不可能僅使用一個(gè)電話同呼叫中心進(jìn)行聯(lián)絡(luò),如果客戶更換電話,呼叫中心同樣不能認(rèn)出這是“老朋友”,從而無(wú)法迅捷地提供個(gè)性化的服務(wù)。

北極星軟件公司將SR的研究應(yīng)用到呼叫中心產(chǎn)品,在原有的系統(tǒng)中加入了語(yǔ)音鑒別設(shè)備SR Server(說(shuō)話人識(shí)別服務(wù)器),從而能夠通過(guò)客戶的聲音進(jìn)行檢索,解決了一個(gè)客戶使用多個(gè)電話和多個(gè)客戶使用一個(gè)電話、不同客戶交叉使用不同電話的問(wèn)題,為客戶提供真正“一對(duì)一”個(gè)性化的服務(wù)。這種新型FineSupport IP Contact Center的結(jié)構(gòu)圖如下:

其工作過(guò)程如下:

1. 用戶撥打呼叫中心的電話號(hào)碼;

2. 由ACD響應(yīng),并將電話接入IVR(交互語(yǔ)音應(yīng)答系統(tǒng)),詢問(wèn)客戶需要幫助的類(lèi)型,并將客戶的語(yǔ)音應(yīng)答傳送到SR Server;

3. SR Server根據(jù)原有的語(yǔ)音訓(xùn)練模型對(duì)該用戶進(jìn)行識(shí)別,并到數(shù)據(jù)庫(kù)進(jìn)行認(rèn)證和檢索;

4. 如果此時(shí)有接線人員處于空閑狀態(tài),ACD將這個(gè)呼叫轉(zhuǎn)移,并同SR Server識(shí)別的結(jié)果傳送到接線人員的計(jì)算機(jī)上;

5. 如果SR的識(shí)別結(jié)果為空(此前該用戶沒(méi)有撥打過(guò)本呼叫中心的電話),系統(tǒng)可以為該用戶建立模型,以供下次識(shí)別時(shí)使用。

四、未來(lái)方向

SR未來(lái)的發(fā)展方向包含兩方面的內(nèi)容:研究方法和市場(chǎng)應(yīng)用。

在SR的研究方法上,盡管北極星已經(jīng)取得不錯(cuò)的進(jìn)展,尋找更加優(yōu)良的研究方法仍然有相當(dāng)艱巨的路要走。由于技術(shù)條件所限,目前所采用的抽樣建模方法等還存在著不足。對(duì)SR最有影響的因素是在不同實(shí)驗(yàn)中聲音特性信號(hào)的變更,包括說(shuō)話者生理上的變動(dòng)性,以及實(shí)驗(yàn)條件的不穩(wěn)定性等。這就對(duì)SR識(shí)別系統(tǒng)形成嚴(yán)峻的挑戰(zhàn)。它必須能適應(yīng)這些變化。SR的未來(lái)研究中將包含提取聲音長(zhǎng)期穩(wěn)定的特征參數(shù)的問(wèn)題。另外,在兩個(gè)人進(jìn)行交談時(shí),能自動(dòng)從中提取出每個(gè)人的聲音特性并加以區(qū)分的技術(shù)也是值得研究的方向。在下一步的研究中,北極星將繼續(xù)提高系統(tǒng)的識(shí)別率,同時(shí)進(jìn)行更大規(guī)模的電話語(yǔ)音測(cè)試。

SR的市場(chǎng)應(yīng)用也是一個(gè)重要的課題。毫無(wú)疑問(wèn),隨著研究技術(shù)的日臻完善,SR的市場(chǎng)應(yīng)用也將趨于成熟。FineSupport的崛起打開(kāi)了SR在中國(guó)應(yīng)用的缺口,為企業(yè)建立個(gè)性化的呼叫中心提供了更多的選擇,增加了可行性。在相關(guān)法律、金融等領(lǐng)域,SR技術(shù)也將是其嘗試運(yùn)作嶄新工作方式的契機(jī)。

摘自計(jì)算機(jī)世界網(wǎng)



相關(guān)鏈接:
北極星軟件與廣東聯(lián)通共建165WebPhone 2003-03-12
英特爾與北極星軟件攜手打造寬帶新應(yīng)用 2003-03-12
北極星CEO出席ITU TELECOM Asia 2002-12-26
北極星推出固網(wǎng)預(yù)付費(fèi)系統(tǒng) 2002-12-17
北極星參加Intel解決方案全國(guó)巡展 2002-11-12
双桥区| 桃源县| 肥西县| 泸西县| 英吉沙县| 惠州市| 卢龙县| 荃湾区| 伊吾县| 富顺县| 芦山县| 辉县市| 珠海市| 海城市| 龙里县| 江西省| 泰州市| 楚雄市| 临西县| 平昌县| 沭阳县| 松江区| 安丘市| 昌宁县| 克拉玛依市| 和政县| 双柏县| 阿克| 繁昌县| 扬中市| 平乡县| 上饶市| 兰考县| 博客| 曲沃县| 鄂尔多斯市| 洪泽县| 石狮市| 健康| 瓮安县| 禹州市|