
谷歌于5月在I/O上宣布了Euphonia項目:試圖使語(yǔ)音識別理解具有非標準語(yǔ)音或障礙的人。谷歌剛剛發(fā)布了一篇文章和一篇論文,解釋了其人工智能的一些功能。
對于那些有運動(dòng)障礙的人,比如由肌萎縮側索硬化癥(ALS)等退化性疾病引起的人,他們的說(shuō)話(huà)聲音根本無(wú)法被現有的自然語(yǔ)言處理系統所理解。
ASR(自動(dòng)語(yǔ)音識別)系統通常是從“典型”語(yǔ)音中訓練出來(lái)的,這意味著(zhù)代表性不足的群體,比如那些有語(yǔ)音障礙或口音重的群體,不會(huì )體驗到同樣程度的實(shí)用功能。
目前最先進(jìn)的ASR模型也會(huì )發(fā)生高錯誤率,只有中度言語(yǔ)障礙的ALS,有效地阻止訪(fǎng)問(wèn)ASR依賴(lài)的技術(shù)。
值得注意的是,他們至少在一定程度上要歸咎于訓練集。這是我們在人工智能模型中發(fā)現的那些內隱偏見(jiàn)之一,這些偏見(jiàn)可能會(huì )在其他地方導致高錯誤率,比如面部識別。
對谷歌的研究人員來(lái)說(shuō),這些意味著(zhù)他們要從ALS患者那里收集數十小時(shí)的語(yǔ)音。正如你可能預期的那樣,因為每個(gè)人受自身狀況的影響都不一樣,所以適應疾病的影響與適應,比如說(shuō),一種不尋常的口音,不是同一個(gè)過(guò)程。
用一個(gè)標準的語(yǔ)音識別模型作基準,然后以一些實(shí)驗性的方式進(jìn)行調整,在新的音頻上進(jìn)行訓練。僅這一點(diǎn)就大大降低了單詞錯誤率,而且對原始模型的更改相對較小,這將意味著(zhù)在調整到一個(gè)新的語(yǔ)音時(shí)不需要太多的計算。
研究人員發(fā)現,當這個(gè)模型仍然被一個(gè)給定的音素(即像“e”或“f”這樣的單個(gè)語(yǔ)音)所混淆時(shí),它有兩種錯誤。首先,它不能識別圖上的因素,因此不能識別單詞。其次,模型必須猜測說(shuō)話(huà)者想要表達的音素,在兩個(gè)或兩個(gè)以上單詞發(fā)音大致相似的情況下,就有可能會(huì )選擇錯誤的音素。
第二個(gè)錯誤是智能處理的錯誤。也許你說(shuō),“我要回到房子里去”,而系統卻不能識別出房子里的“b”和“h”。
但這要留給未來(lái)去研究。目前,你可以知道的是該團隊發(fā)表的一篇名為“在有限的數據下,個(gè)性化語(yǔ)音障礙和重音語(yǔ)音的ASR”的論文,將于下月在奧地利舉行的Interspeech大會(huì )上發(fā)表。