微軟在其Azure語(yǔ)音服務(wù)新增發(fā)音評估(Pronunciation Assessment)功能,該功能可以評估語(yǔ)音發(fā)音,提供說(shuō)話(huà)者有關(guān)語(yǔ)音準確性和流暢度的回饋,現在該功能美國英語(yǔ)已經(jīng)正式上市,其他語(yǔ)言則提供預覽版本。

發(fā)音評估是Azure認知服務(wù)中,語(yǔ)音服務(wù)的一項功能,可提供主觀(guān)與客觀(guān)語(yǔ)音評估回饋,有助於以電腦輔助語(yǔ)言學(xué)習的效果,微軟提到,對語(yǔ)言學(xué)習者來(lái)說(shuō),練習發(fā)音能夠獲得即時(shí)的回饋,可以有效提高語(yǔ)言技能。過(guò)去發(fā)音評估都需要交由老師進(jìn)行,但這需要花費大量的時(shí)間和精力,學(xué)習者必須要付出較高的學(xué)習成本,而發(fā)音評估是一個(gè)由人工智慧驅動(dòng)的語(yǔ)音功能,讓學(xué)習者可更容易地獲得發(fā)音校正指導。
發(fā)音評估能夠給出接近人類(lèi)專(zhuān)家品質(zhì)的綜合評價(jià),以不同精細度評估用戶(hù)的發(fā)音,從單音素到完整段落輸入。在音素層面,發(fā)音評估會(huì )提供每個(gè)音素的準確度分數,幫助學(xué)習者更好地理解語(yǔ)音發(fā)音細節,而在單詞等級,發(fā)音評估可以自動(dòng)檢測錯誤提供準確度分數,以及遺漏、重復和錯誤發(fā)音等詳細資訊。
而在全文層級,發(fā)音評估提供額外的流暢度和完整度分數,流暢度則是和母語(yǔ)者比較,在單詞之間中斷無(wú)聲的程度,而完整度則代表所輸入的參考文本中,用戶(hù)念出單詞的比例,然後從準確度、流暢度和完整性匯總分數,給出整體的發(fā)音品質(zhì)評估,學(xué)習者可以利用這些評估,改進(jìn)口說(shuō)弱點(diǎn)。
語(yǔ)音評估的核心,是使用發(fā)音錯誤檢測和診斷(Mispronunciation Detection and Diagnose,MDD)技術(shù),對單詞層級的發(fā)音準確度進(jìn)行評分,提供錯誤判斷并且有助於整體評估,官方提到,為了提供準確且一致的結果,發(fā)音評估采用新的神經(jīng)網(wǎng)路進(jìn)行建模,利用分層架構從較低的單詞粒度,處理到更高的單詞粒度訊息。官方提到,這樣的設計讓發(fā)音評估,可以從微小的模式中,充分利用詳細的發(fā)音資訊,使得錯誤發(fā)音檢測更準確。
發(fā)音評估模型使用超過(guò)10萬(wàn)小時(shí),來(lái)自不同口音、地區和年齡的語(yǔ)音訓練資料,發(fā)音評估可以處理各種類(lèi)型用戶(hù)溝通的場(chǎng)景,像是成人到小孩,或是非母語(yǔ)人士到母語(yǔ)人士,提供一致的評估效能。官方提到,發(fā)音評估支援自由式談話(huà),也就是說(shuō)話(huà)者在說(shuō)話(huà)之前沒(méi)有任何前綴參照,像是演講或是口語(yǔ)考試,透過(guò)使用Azure Speech-to-Text服務(wù),發(fā)音評估可以自動(dòng)準確地轉錄語(yǔ)音,并提供各種粒度評估結果。