Yobe想解決的,是語(yǔ)音領(lǐng)域目前的一個(gè)困境,語(yǔ)音助手可以識(shí)別出用戶在講什么,準(zhǔn)確度也不錯(cuò),但假設(shè)有人和用戶同時(shí)說(shuō)話,其識(shí)別率就會(huì)大大降低,這被稱為“雞尾酒會(huì)問(wèn)題”。就像在一場(chǎng)宴會(huì)上,背景過(guò)于嘈雜,語(yǔ)音識(shí)別就難以正常工作。
為此,Yobe建立了一個(gè)聲音驅(qū)動(dòng)系統(tǒng),可以在嘈雜環(huán)境中,利用AI識(shí)別用戶的生物特征,進(jìn)而判斷并分離特定的聲音,自動(dòng)提高這一特定聲音的音量,幫助語(yǔ)音識(shí)別引擎更好地工作。

2017年6月,Yobe公布了一段非常簡(jiǎn)短的技術(shù)介紹視頻
在應(yīng)用上,Yobe計(jì)劃將技術(shù)授權(quán)給芯片或智能硬件制造商,第一步的推廣會(huì)從聲控設(shè)備開(kāi)始。CEO Ken Sutton認(rèn)為,特定聲音識(shí)別技術(shù)的應(yīng)用場(chǎng)景很廣,可以用于會(huì)議轉(zhuǎn)錄,幫助司法或鑒定,制造更好的助聽(tīng)器,以及完善聲紋識(shí)別技術(shù)。
Sutton表示,目前技術(shù)研發(fā)已經(jīng)完成,下一步將簡(jiǎn)化產(chǎn)品并投入市場(chǎng)。新產(chǎn)品會(huì)在一個(gè)月內(nèi)上線,將開(kāi)發(fā)布會(huì)進(jìn)行現(xiàn)場(chǎng)演示。
與Yobe想解決的問(wèn)題類似,今年4月,Google曾在博客上發(fā)文稱,正試圖復(fù)制“人類大腦專注于某個(gè)聲源,同時(shí)可過(guò)濾掉其他聲音”的能力。Google的技術(shù)主要集中在視頻處理上,讓用戶在一段視頻中選擇一個(gè)人臉,利用視覺(jué)組件觀察這個(gè)人的嘴,從而創(chuàng)建出其個(gè)人語(yǔ)音軌跡。當(dāng)然,谷歌的技術(shù)難度在于分離數(shù)段聲音,而Yobe主要完成的,更類似于AI降噪。
錘子的堅(jiān)果3就聲稱利用了“AI通話智能降噪技術(shù)”,其供應(yīng)商大象聲科是基于計(jì)算機(jī)聽(tīng)覺(jué)場(chǎng)景分析,通過(guò)深度學(xué)習(xí)技術(shù),來(lái)實(shí)現(xiàn)和噪音環(huán)境下語(yǔ)音增強(qiáng)。大象聲科表示,這項(xiàng)技術(shù)是世界第一款芯片級(jí)單音軌實(shí)時(shí)語(yǔ)音提取方案,已經(jīng)開(kāi)始在手機(jī)通訊行業(yè)實(shí)現(xiàn)商用。
作為一項(xiàng)利用了AI的產(chǎn)品,計(jì)算資源占用和性能之間的平衡或許是Yobe最需要做好的。而以單一輔助技術(shù)作為出發(fā)點(diǎn),在開(kāi)拓市場(chǎng)之后,Yobe是給自己尋找一個(gè)好買家,還是以此為切入點(diǎn)進(jìn)入更廣的語(yǔ)音領(lǐng)域,也是我們接下來(lái)會(huì)關(guān)注的。