從面向廣大英語(yǔ)和普通話(huà)聽(tīng)眾的測試中發(fā)現,WaveNet的表現已經(jīng)優(yōu)于現有的語(yǔ)音合成系統,但結果還是略遜于人類(lèi)真正的語(yǔ)言水平。
目前的語(yǔ)音合成系統只有兩種工作方式:第一種是截取實(shí)際的講話(huà)錄音,然后打碎重組成新的語(yǔ)音——有點(diǎn)像綁架電話(huà)慣用的手段;另一種是依賴(lài)電腦合成,通過(guò)編程生成語(yǔ)音,這意味著(zhù)它不需要預先錄制好語(yǔ)音材料,但是聽(tīng)起來(lái)的效果并不好,很像機器人。
另一方面,WaveNet仍然使用真實(shí)的語(yǔ)音輸入,但通過(guò)學(xué)習和模仿來(lái)合成語(yǔ)音,而不是將其打破重組。項目的研究人員寫(xiě)道:“單單一個(gè)WaveNet就能以相同的保真度捕捉記錄下各個(gè)不同說(shuō)話(huà)者的特點(diǎn),并且可以任意切換聲音。”
同樣令人印象深刻的是,它可以利用諸如唇部運動(dòng)和人工呼吸來(lái)模擬語(yǔ)調、情緒和口音。如果這還不夠,WaveNet也許還能像鋼琴一樣彈奏樂(lè )曲,研究人員只需提供一些經(jīng)典片段,它就能創(chuàng )作出自己的作品。
DeepMind在Twitter發(fā)文稱(chēng):“讓人類(lèi)和機器對話(huà)是人機交互領(lǐng)域長(cháng)久以來(lái)的夢(mèng)想”