
微軟周二公布一項報告,指出微軟開(kāi)發(fā)的語(yǔ)音識別技術(shù)在一項測試中,首度達到錯誤率和人類(lèi)相去不遠的識別能力。
微軟人工智能研究中心(Microsoft Artificial Intelligenceand Research)公布的報告中研究人員及工程師運用業(yè)界常用的電話(huà)口語(yǔ)對話(huà)測試集NIST 2000 CTS,針對微軟自有技術(shù)及專(zhuān)業(yè)聽(tīng)打員進(jìn)行測試比較。其中在Switchboard子測試集中,微軟技術(shù)的字詞錯誤率由上個(gè)月的6.3%降到5.9%。
微軟表示,這個(gè)成績(jì)大約等于識別同一組對話(huà)的人類(lèi)成績(jì),也是Switchboard語(yǔ)音識別測試歷來(lái)最低的錯誤率。這表示電腦辨識對話(huà)口語(yǔ)字詞的能力,首次達到人類(lèi)相同水準。
主管微軟人工智能研究中心的執行副總裁沈向洋也指出,他們去年立下使電腦語(yǔ)音識別能力達到人類(lèi)水準的目標,不到一年就達到了,也出乎他們意料之外。
微軟研究團隊運用該公司電腦視覺(jué)專(zhuān)家開(kāi)發(fā)的深度神經(jīng)網(wǎng)路,以大量資料訓練電腦識別出圖像或語(yǔ)音中的模式。為達到和人類(lèi)相仿的辨識能力,他們使用名為Computation Network Toolkit(CNTK)的深度學(xué)習系統。這套系統透過(guò)在多臺搭載專(zhuān)用繪圖處理器的電腦上快速處理執行深度演算,并大幅提升研究能力,最終拉高到人類(lèi)水準。微軟去年也將此工具組開(kāi)源于GitHub釋出。但微軟也指出,一如人類(lèi)會(huì )犯錯,電腦也不是所有字都能識別無(wú)誤
微軟表示,這項研究結果將對消費及商用產(chǎn)品有深遠影響,包括Xbox游戲機、身障輔助工具,如口語(yǔ)聽(tīng)寫(xiě),并使Cortana成為真正的個(gè)人數位助理服務(wù)。
除了微軟,Google、臉書(shū)、IBM及百度也都積極投入人工智能為基礎的語(yǔ)音識別,用以作為人機的自然語(yǔ)言互動(dòng)界面。