
多麥克風(fēng)陣列的優(yōu)劣勢
據悉目前通過(guò)多麥克風(fēng)陣列提高語(yǔ)音識別準確率已然流行許久。這也是目前最行之有效的一個(gè)方式,但是有利就有弊,傳統的多麥克風(fēng)陣列僅解決語(yǔ)音增強問(wèn)題,或者將語(yǔ)音與噪聲分離。而語(yǔ)音識別這個(gè)問(wèn)題則被單拎出來(lái)獨立解決。相關(guān)實(shí)驗結果表明,這種方法所取得的效果并不太好。
亞馬遜研究人員開(kāi)發(fā)新聲學(xué)模型框架
此次亞馬遜的研究人員開(kāi)發(fā)的新聲學(xué)模型框架,有望改寫(xiě)這一現狀,他們在論文中描述了一種多傳聲器方法,它取代了確定波束形成器(在傳感器輸出上操作的空間濾波器,以增強波的振幅)方向和用單個(gè)神經(jīng)網(wǎng)絡(luò )識別語(yǔ)音信號的單獨的手工編碼算法。亞馬遜目前的回聲揚聲器系列可以動(dòng)態(tài)調整波束形成器以適應新的聲學(xué)環(huán)境。但是,通過(guò)在不同環(huán)境下的大型語(yǔ)料庫上訓練單個(gè)模型,研究人員能夠去掉適應步驟。
傳統技術(shù)旨在將單個(gè)[聲束]轉向任意方向,但這是一種計算密集型的方法,”Alexa語(yǔ)音小組的語(yǔ)音科學(xué)家Kenichi Kumatani在一篇博客文章中解釋道。“使用Echo智能揚聲器,我們將多個(gè)波束形成器指向不同的方向,并確定產(chǎn)生最清晰語(yǔ)音信號的波束形成器……這就是為什么Alexa可以理解您的天氣預報請求,即使電視噪音就在離你很近的地方。”
單神經(jīng)網(wǎng)絡(luò )和傳統模型都將波束形成器的輸出以對數濾波器組能量的形式傳遞給特征提取器,或者以多個(gè)不規則頻段的信號能量快照進(jìn)行傳遞。在傳統模型中,它們根據背景噪聲的估算進(jìn)行歸一化,抽取器的輸出被傳遞給一個(gè)人工智能系統,該系統用于計算不同語(yǔ)音信息的短單位相對應的特征。
根據論文作者的觀(guān)點(diǎn),如果模型的每個(gè)組件(例如,特征抽取器和波束形成器)分別初始化,性能就會(huì )提高。他們補充說(shuō),不同的培訓數據使模型能夠處理不同設備類(lèi)型的麥克風(fēng)配置范圍。
Kumatani說(shuō):“除其他優(yōu)點(diǎn)外,這意味著(zhù)新設備的ASR系統,或使用較少的設備,可以從更廣泛采用的設備生成的交互數據中獲益。”
論文地址:(回復亞馬遜也可直接獲取百度云鏈接)
https://arxiv.org/pdf/1903.06539.pdf
https://arxiv.org/pdf/1903.05299.pdf
當然更多技術(shù)細節可以點(diǎn)擊下方原文鏈接
https://developer。amazon。com/zh/blogs/alexa/post/c47b5538-732c-4cb9-980f-14d79f91c6b9/joint-training-on-speech-signal-isolation-and-speech-recognition-improves-performance