語(yǔ)音識(shí)別技術(shù)前景廣闊
2007/01/16
微軟公司(Microsoft)和福特汽車公司(Ford)希望人們能向汽車發(fā)出口頭指令,雖然短時(shí)間內(nèi)實(shí)現(xiàn)這點(diǎn)的可能性不大。但實(shí)際上,人們?cè)缫押托酒M(jìn)行口頭交流了,只是大家并沒有意識(shí)到而已。不僅如此,今后人們和芯片的交流還會(huì)越來越多。
自電腦問世以來,科學(xué)家們就一直致力于讓電腦能理解人們的講話。幾年前,除了實(shí)驗(yàn)室內(nèi)的演示之外,這方面還沒什么進(jìn)展。不過現(xiàn)在,電腦的語(yǔ)音識(shí)別功能已經(jīng)相當(dāng)先進(jìn),并被廣泛運(yùn)用到各個(gè)領(lǐng)域,如汽車上。
不久前,在拉斯維加斯(Las Vegas)舉行的國(guó)際電子消費(fèi)品展覽會(huì)上,比爾•蓋茨(Bill Gates)和福特汽車公司的高管們展示了微軟公司的Sync軟件是如何讓駕車者們通過口頭指令在車內(nèi)播放音樂和撥打電話的。但是,通過口頭指令駕駛汽車還難以被廣泛運(yùn)用,至少目前還不行。
新版的Windows操作系統(tǒng)Vista具有相當(dāng)先進(jìn)的內(nèi)置語(yǔ)音識(shí)別軟件,但微軟公司在推銷Vista的時(shí)候并沒有大肆宣揚(yáng)這一點(diǎn)。那些希望了解該軟件功能的用戶也許要在難以得到微軟大力幫助的情況下進(jìn)行了。
目前,世面上最先進(jìn)的電腦語(yǔ)音識(shí)別軟件是Naturally Speaking。該產(chǎn)品的來歷有點(diǎn)復(fù)雜:它出自于Nuance Communications,該公司的前身是ScanSoft。ScanSoft通過一系列的收購(gòu),如收購(gòu)Dictaphone等,試圖將公司打造為全美最主要的語(yǔ)音識(shí)別技術(shù)供應(yīng)商。
Naturally Speaking的大多數(shù)用戶認(rèn)為該軟件運(yùn)行效果不錯(cuò),盡管你的發(fā)音要比平時(shí)說話更清楚。用戶對(duì)著麥克風(fēng)說話,屏幕上就顯示出說話的內(nèi)容,很容易糾正識(shí)別錯(cuò)誤。這樣一來,該軟件就會(huì)逐步適應(yīng)用戶的說話風(fēng)格,當(dāng)然用戶也相應(yīng)地調(diào)整了自己的說話風(fēng)格,因此語(yǔ)音識(shí)別的正確率就會(huì)提高。
雖然通過口頭指令來控制電腦在科幻小說里屢見不鮮,但事實(shí)上大多數(shù)人覺得通過鍵盤和鼠標(biāo)來控制電腦也很方便。比爾•邁森(Bill Meisel)對(duì)語(yǔ)音識(shí)別軟件市場(chǎng)很有研究,他指出,目前該軟件主要用于法律和醫(yī)學(xué)等特定領(lǐng)域。例如,放射線學(xué)者們?cè)絹碓蕉嗟赝ㄟ^語(yǔ)音識(shí)別軟件口授診斷報(bào)告和結(jié)果,而不再由錄音機(jī)錄下口頭報(bào)告,再加以轉(zhuǎn)錄。
語(yǔ)音識(shí)別軟件是利用非常復(fù)雜的統(tǒng)計(jì)方法來把人們的講話與單詞相對(duì)應(yīng)起來的。電腦功能的日益強(qiáng)大意味著這類電腦軟件如今能在交貨前被“訓(xùn)練”數(shù)千個(gè)小時(shí),而十年前只能“訓(xùn)練”幾十個(gè)小時(shí)。
語(yǔ)音識(shí)別技術(shù)的主要應(yīng)用領(lǐng)域之一就是呼叫中心。許多電腦查詢服務(wù)采用了這項(xiàng)技術(shù),通常是Nuance公司的技術(shù),來處理客戶的需求,而無需人工服務(wù)了。此外,較為復(fù)雜的銷售及支持工作也日益自動(dòng)化了。如今,人們可以通過向航空公司的電腦發(fā)出口頭指令來購(gòu)買或查詢機(jī)票。(雖然我對(duì)語(yǔ)音識(shí)別技術(shù)很感興趣,我個(gè)人還是喜歡與人交流。如果這些工作今后都由電腦取代,那真是太令人遺憾了。)
邁森還預(yù)計(jì)說,接下來,語(yǔ)音識(shí)別技術(shù)將被用于網(wǎng)絡(luò)搜索。預(yù)計(jì)在不久的將來,谷歌(Google)和雅虎(Yahoo)將推出面向手機(jī)用戶的語(yǔ)音搜索服務(wù),用戶只要說出自己想找什么,就可以聽到電腦的自動(dòng)答復(fù)。這兩家公司都已聘請(qǐng)了語(yǔ)音識(shí)別技術(shù)專家。Nuance還在與雅虎對(duì)簿公堂,因?yàn)檠呕⑼谧吡薔uance的13名工程師。
在語(yǔ)音識(shí)別技術(shù)研究方面一直頗為領(lǐng)先的國(guó)際商業(yè)機(jī)器公司(IBM)也有宏偉計(jì)劃,例如研制一種軟件能監(jiān)聽四到五個(gè)人參加的小型會(huì)議,然后提供準(zhǔn)確的書面記錄。由于大多數(shù)此類軟件目前只能識(shí)別單個(gè)說話者,IBM的計(jì)劃顯然有點(diǎn)超前。
不過,負(fù)責(zé)IBM的語(yǔ)音識(shí)別技術(shù)開發(fā)的戴維•那哈莫(David Nahamoo)表示,該公司已經(jīng)開發(fā)出了其他一些應(yīng)用軟件。其中一項(xiàng)是能自動(dòng)翻譯外語(yǔ)廣播,如阿拉伯語(yǔ)廣播。該軟件首先通過語(yǔ)音識(shí)別技術(shù)記錄下說話者所說的話,然后通過翻譯軟件把外語(yǔ)翻譯成英語(yǔ)。
這個(gè)軟件目前還非常不成熟,但也足以翻譯出說話者的要點(diǎn)。對(duì)于缺乏阿拉伯語(yǔ)人才、但又想深入掌握阿拉伯世界動(dòng)態(tài)的美國(guó)政府而言,該軟件不失為一個(gè)很好的選擇。
除了情報(bào)服務(wù)領(lǐng)域之外,該軟件的應(yīng)用領(lǐng)域還不少呢。例如,各電視臺(tái)目前承受很大壓力,公眾要求它們?yōu)槁犛X有障礙的觀眾提供字幕服務(wù),但電視臺(tái)沒有人手。隨著時(shí)間的推移,采用軟件進(jìn)行自動(dòng)處理也許是個(gè)好方法。當(dāng)然,這對(duì)于大學(xué)教授的講座也同樣適用:設(shè)想一下學(xué)生們可以在課堂上打瞌睡,同時(shí)又不會(huì)漏掉老師講的每個(gè)詞。
http://www.chinese.wsj.com
相關(guān)鏈接:
远安县|
辰溪县|
绩溪县|
平原县|
深圳市|
惠水县|
会东县|
含山县|
白城市|
内黄县|
抚远县|
阜城县|
凤阳县|
渭南市|
正蓝旗|
精河县|
德钦县|
阳山县|
仪征市|
彝良县|
焉耆|
科尔|
滁州市|
德化县|
罗江县|
津南区|
盘锦市|
张家港市|
台山市|
时尚|
西贡区|
阿克陶县|
陵川县|
都安|
天祝|
黄龙县|
喀什市|
灵武市|
五大连池市|
聂荣县|
东乌珠穆沁旗|