97成人免费视频,97视频免费公开成人福利,免费视频99,99婷婷,国产伊人久久,亚洲视频欧美,国产精品福利久久

您當(dāng)前的位置是:  首頁(yè) > 新聞 > 國(guó)內(nèi) >
 首頁(yè) > 新聞 > 國(guó)內(nèi) >

深度全序列卷積神經(jīng)網(wǎng)絡(luò)成功用于語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù)

2016-08-10 15:19:55   作者:   來(lái)源:訊飛研究院   評(píng)論:0  點(diǎn)擊cti:


  導(dǎo)讀:目前最好的語(yǔ)音識(shí)別系統(tǒng)采用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM,LongShort Term Memory),但是,這一系統(tǒng)存在訓(xùn)練復(fù)雜度高、解碼時(shí)延高的問(wèn)題,尤其在工業(yè)界的實(shí)時(shí)識(shí)別系統(tǒng)中很難應(yīng)用。科大訊飛在今年提出了一種全新的語(yǔ)音識(shí)別框架——深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN,Deep Fully Convolutional NeuralNetwork),更適合工業(yè)應(yīng)用。本文是對(duì)科大訊飛使用DFCNN應(yīng)用于語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù)的詳細(xì)解讀,其外還包含了語(yǔ)音轉(zhuǎn)寫(xiě)中口語(yǔ)化和篇章級(jí)語(yǔ)言模型處理、噪聲和遠(yuǎn)場(chǎng)識(shí)別和文本處理實(shí)時(shí)糾錯(cuò)以及文字后處理等技術(shù)的分析。
深度全序列卷積神經(jīng)網(wǎng)絡(luò)成功用于語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù)
  人工智能的應(yīng)用中,語(yǔ)音識(shí)別在今年來(lái)取得顯著進(jìn)步,不管是英文、中文或者其他語(yǔ)種,機(jī)器的語(yǔ)音識(shí)別準(zhǔn)確率在不斷上升。其中,語(yǔ)音聽(tīng)寫(xiě)技術(shù)的發(fā)展最為迅速,目前已廣泛在語(yǔ)音輸入、語(yǔ)音搜索、語(yǔ)音助手等產(chǎn)品中得到應(yīng)用并日臻成熟。但是,語(yǔ)音應(yīng)用的另一層面,即語(yǔ)音轉(zhuǎn)寫(xiě),目前仍存在一定的難點(diǎn),由于在產(chǎn)生錄音文件的過(guò)程中使用者并沒(méi)有預(yù)計(jì)到該錄音會(huì)被用于語(yǔ)音識(shí)別,因而與語(yǔ)音聽(tīng)寫(xiě)相比,語(yǔ)音轉(zhuǎn)寫(xiě)將面臨說(shuō)話(huà)風(fēng)格、口音、錄音質(zhì)量等諸多挑戰(zhàn)。
  語(yǔ)音轉(zhuǎn)寫(xiě)的典型場(chǎng)景包括,記者采訪、電視節(jié)目、課堂及交談式會(huì)議等等,甚至包括任何人在日常的工作生活中產(chǎn)生的任何錄音文件。語(yǔ)音轉(zhuǎn)寫(xiě)的市場(chǎng)及想象空間是巨大的,想象一下,如果人類(lèi)可以征服語(yǔ)音轉(zhuǎn)寫(xiě),電視節(jié)目可以自動(dòng)生動(dòng)字幕、正式會(huì)議可以自動(dòng)形成記要、記者采訪的錄音可以自動(dòng)成稿……人的一生中說(shuō)的話(huà)要比我們寫(xiě)過(guò)的字多的多,如果有一個(gè)軟件能記錄我們所說(shuō)過(guò)的所有的話(huà)并進(jìn)行高效的管理,這個(gè)世界將會(huì)多么的讓人難以置信。
  基于DFCNN的聲學(xué)建模技術(shù)
  語(yǔ)音識(shí)別的聲學(xué)建模主要用于建模語(yǔ)音信號(hào)與音素之間的關(guān)系,科大訊飛繼去年12月21日提出前饋型序列記憶網(wǎng)絡(luò)(FSMN,F(xiàn)eed-forward Sequential Memory Network)作為聲學(xué)建模框架后,今年再次推出全新的語(yǔ)音識(shí)別框架,即深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN,Deep Fully Convolutional NeuralNetwork)。
  目前最好的語(yǔ)音識(shí)別系統(tǒng)采用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM,LongShort Term Memory),這種網(wǎng)絡(luò)能夠?qū)φZ(yǔ)音的長(zhǎng)時(shí)相關(guān)性進(jìn)行建模,從而提高識(shí)別正確率。但是雙向LSTM網(wǎng)絡(luò)存在訓(xùn)練復(fù)雜度高、解碼時(shí)延高的問(wèn)題,尤其在工業(yè)界的實(shí)時(shí)識(shí)別系統(tǒng)中很難應(yīng)用。因而科大訊飛使用深度全序列卷積神經(jīng)網(wǎng)絡(luò)來(lái)克服雙向LSTM的缺陷。
  CNN早在2012年就被用于語(yǔ)音識(shí)別系統(tǒng),但始終沒(méi)有大的突破。主要的原因是其使用固定長(zhǎng)度的幀拼接作為輸入,無(wú)法看到足夠長(zhǎng)的語(yǔ)音上下文信息;另外一個(gè)缺陷將CNN視作一種特征提取器,因此所用的卷積層數(shù)很少,表達(dá)能力有限。
  針對(duì)這些問(wèn)題,DFCNN使用大量的卷積層直接對(duì)整句語(yǔ)音信號(hào)進(jìn)行建模。首先,在輸入端DFCNN直接將語(yǔ)譜圖作為輸入,相比其他以傳統(tǒng)語(yǔ)音特征作為輸入的語(yǔ)音識(shí)別框架相比具有天然的優(yōu)勢(shì)。其次,在模型結(jié)構(gòu)上,借鑒了圖像識(shí)別的網(wǎng)絡(luò)配置,每個(gè)卷積層使用小卷積核,并在多個(gè)卷積層之后再加上池化層,通過(guò)累積非常多的卷積池化層對(duì),從而可以看到非常長(zhǎng)的歷史和未來(lái)信息。這兩點(diǎn)保證了DFCNN可以出色的表達(dá)語(yǔ)音的長(zhǎng)時(shí)相關(guān)性,相比RNN網(wǎng)絡(luò)結(jié)構(gòu)在魯棒性上更加出色,同時(shí)可以實(shí)現(xiàn)短延時(shí)的準(zhǔn)在線(xiàn)解碼,從而可用于工業(yè)系統(tǒng)中。
深度全序列卷積神經(jīng)網(wǎng)絡(luò)成功用于語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù)
(DFCNN 結(jié)構(gòu)圖)
  口語(yǔ)化和篇章級(jí)語(yǔ)言模型處理技術(shù)
  語(yǔ)音識(shí)別的語(yǔ)言模型主要用于建模音素與字詞之間的對(duì)應(yīng)關(guān)系。由于人類(lèi)的口語(yǔ)為無(wú)組織性的自然語(yǔ)言,人們?cè)谧杂蓪?duì)話(huà)時(shí),通常會(huì)出現(xiàn)猶豫、回讀、語(yǔ)氣詞等復(fù)雜的語(yǔ)言現(xiàn)象,而以文字形式存在的語(yǔ)料通常為書(shū)面語(yǔ),這兩種之間的鴻溝使得針對(duì)口語(yǔ)語(yǔ)言的語(yǔ)言模型建模面臨極大的挑戰(zhàn)。
  科大訊飛借鑒了語(yǔ)音識(shí)別處理噪聲問(wèn)題采用加噪訓(xùn)練的思想,即在書(shū)面語(yǔ)的基礎(chǔ)上自動(dòng)引入回讀、倒裝、語(yǔ)氣詞等口語(yǔ)“噪聲”現(xiàn)象,從而可自動(dòng)生成海量口語(yǔ)語(yǔ)料,解決口語(yǔ)和書(shū)面語(yǔ)之間的不匹配問(wèn)題。首先,收集部分口語(yǔ)文本和書(shū)面文本語(yǔ)料對(duì);其次,使用基于Encoder-Decoder的神經(jīng)網(wǎng)絡(luò)框架建模書(shū)面語(yǔ)文本與口語(yǔ)文本之間的對(duì)應(yīng)關(guān)系,從而實(shí)現(xiàn)了口語(yǔ)文本的自動(dòng)生成。
  另外,上下文信息可以較大程度幫助人類(lèi)對(duì)語(yǔ)言的理解,對(duì)于機(jī)器轉(zhuǎn)錄也是同樣的道理。因而,科大訊飛在去年12月21提出了篇章級(jí)語(yǔ)言模型的方案,該方案根據(jù)語(yǔ)音識(shí)別的解碼結(jié)果自動(dòng)進(jìn)行關(guān)鍵信息抽取,實(shí)時(shí)進(jìn)行語(yǔ)料搜索和后處理,用解碼結(jié)果和搜索到的語(yǔ)料形成特定語(yǔ)音相關(guān)的語(yǔ)言模型,從而進(jìn)一步提高語(yǔ)音轉(zhuǎn)寫(xiě)的準(zhǔn)確率。
深度全序列卷積神經(jīng)網(wǎng)絡(luò)成功用于語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù)
  (篇章級(jí)語(yǔ)言模型流程圖)
  噪聲和遠(yuǎn)場(chǎng)識(shí)別技術(shù)
  語(yǔ)音識(shí)別的應(yīng)用遠(yuǎn)場(chǎng)拾音和噪聲干擾一直是兩大技術(shù)難題。例如在會(huì)議的場(chǎng)景下,如果使用錄音筆進(jìn)行錄音,離錄音筆較遠(yuǎn)說(shuō)話(huà)人的語(yǔ)音即為遠(yuǎn)場(chǎng)帶混響語(yǔ)音,由于混響會(huì)使得不同步的語(yǔ)音相互疊加,帶來(lái)了音素的交疊掩蔽效應(yīng),從而嚴(yán)重影響語(yǔ)音識(shí)別效果;同樣,如果錄音環(huán)境中存在背景噪聲,語(yǔ)音頻譜會(huì)被污染,其識(shí)別效果也會(huì)急劇下降。科大訊飛針對(duì)該問(wèn)題使用了單麥克及配合麥克風(fēng)陣列兩種硬件環(huán)境下的降噪、解混響技術(shù),使得遠(yuǎn)場(chǎng)、噪聲情況下的語(yǔ)音轉(zhuǎn)寫(xiě)也達(dá)到了實(shí)用門(mén)檻。
  單麥克降噪、解混響
  對(duì)采集到的有損失語(yǔ)音,使用混合訓(xùn)練和基于深度回歸神經(jīng)網(wǎng)絡(luò)降噪解混響結(jié)合的方法。即一方面對(duì)干凈的語(yǔ)音進(jìn)行加噪,并與干凈語(yǔ)音一起進(jìn)行混合訓(xùn)練,從而提高模型對(duì)于帶噪語(yǔ)音的魯棒性(編者注:Robust的音譯,即健壯和強(qiáng)壯之意);另一方面,使用基于深度回歸神經(jīng)網(wǎng)絡(luò)進(jìn)行降噪和解混響,進(jìn)一步提高帶噪、遠(yuǎn)場(chǎng)語(yǔ)音的識(shí)別正確率。
深度全序列卷積神經(jīng)網(wǎng)絡(luò)成功用于語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù)
  麥克風(fēng)陣列降噪、解混響
  僅僅考慮在語(yǔ)音處理過(guò)程中的噪音可以說(shuō)是治標(biāo)不治本,如何從源頭上解決混響和降噪似乎才是問(wèn)題的關(guān)鍵。面對(duì)這一難題,科大訊飛研發(fā)人員通過(guò)在錄音設(shè)備上加上多麥克陣列,利用多麥克陣列進(jìn)行降噪與解混響。具體地,使用多個(gè)麥克風(fēng)采集多路時(shí)頻信號(hào),利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)波束形成,從而在目標(biāo)信號(hào)的方向形成一個(gè)拾音波束,并衰減來(lái)自其他方向的反射聲。該方法與上述單麥克降噪和解混響的結(jié)合,可以進(jìn)一步顯著的提高帶噪、遠(yuǎn)場(chǎng)語(yǔ)音的識(shí)別正確率。
深度全序列卷積神經(jīng)網(wǎng)絡(luò)成功用于語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù)
  文本處理實(shí)時(shí)糾錯(cuò)+文字后處理
  前面所說(shuō)的都只是對(duì)于語(yǔ)音的處理技術(shù),即將錄音轉(zhuǎn)錄成文字,但正如上文所述人類(lèi)的口語(yǔ)為無(wú)組織性的自然語(yǔ)言,即使在語(yǔ)音轉(zhuǎn)寫(xiě)正確率非常高的情況下,語(yǔ)音轉(zhuǎn)寫(xiě)文本的可閱讀性仍存在較大的問(wèn)題,所以文本后處理的重要性就體現(xiàn)了出來(lái)。所謂文本后處理即對(duì)口語(yǔ)化的文本進(jìn)行分句、分段,并對(duì)文本內(nèi)容的流利性進(jìn)行處理,甚至進(jìn)行內(nèi)容的摘要,以利于更好的閱讀與編輯。
  后處理Ⅰ:分句與分段
  分句,即對(duì)轉(zhuǎn)寫(xiě)文本按語(yǔ)義進(jìn)行子句劃分,并在子句之間加注標(biāo)點(diǎn);分段,即將一篇文本切分成若干個(gè)語(yǔ)義段落,每個(gè)段落描述的子主題各不相同。
  通過(guò)提取上下文相關(guān)的語(yǔ)義特征,同時(shí)結(jié)合語(yǔ)音特征,來(lái)進(jìn)行子句與段落的劃分;考慮到有標(biāo)注的語(yǔ)音數(shù)據(jù)較難獲得,在實(shí)際運(yùn)用中科大訊飛利用兩級(jí)級(jí)聯(lián)雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)建模技術(shù),從而較好的解決了分句與分段問(wèn)題。
  后處理Ⅱ:內(nèi)容順滑
  內(nèi)容順滑,又稱(chēng)為不流暢檢測(cè),即剔除轉(zhuǎn)寫(xiě)結(jié)果中的停頓詞、語(yǔ)氣詞、重復(fù)詞,使順滑后的文本更易于閱讀。
  科大訊飛通過(guò)使用泛化特征并結(jié)合雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)建模技術(shù),使得內(nèi)容順滑的準(zhǔn)確率達(dá)到了實(shí)用階段。

專(zhuān)題

青铜峡市| 宁南县| 海宁市| 五峰| 镇宁| 吉林省| 龙井市| 沐川县| 竹溪县| 玛多县| 石棉县| 无极县| 大英县| 凤台县| 子洲县| 屯门区| 遂川县| 犍为县| 财经| 宁城县| 兴文县| 灌云县| 余庆县| 海安县| 昌图县| 垫江县| 佛山市| 大城县| 衡山县| 平武县| 毕节市| 卢氏县| 华容县| 罗江县| 华亭县| 佛学| 满洲里市| 湖北省| 亳州市| 灵丘县| 垫江县|