手機語(yǔ)音搜索亟待突破中文識別技術(shù)瓶頸
2012/02/21
“娛樂(lè )式嘗鮮”利于產(chǎn)品升級改進(jìn)
在手機語(yǔ)音搜索這一年度移動(dòng)互聯(lián)網(wǎng)熱點(diǎn)領(lǐng)域,蘋(píng)果公司依舊是先行者。此前,蘋(píng)果公司推出了iPhone 4S,并在其中集成了Siri模塊——這使得用戶(hù)可以通過(guò)語(yǔ)音對手機進(jìn)行控制,同時(shí)也可以通過(guò)語(yǔ)音進(jìn)行搜索。蘋(píng)果公司巨大的行業(yè)示范效應使得手機語(yǔ)音搜索的市場(chǎng)被引爆,各類(lèi)語(yǔ)音搜索的應用迅速涌現。
近日,HTC旗艦級新機HTC Endeavour被曝出包含了一項名為“HTC Speak”的語(yǔ)音助理軟件;國內熱門(mén)移動(dòng)互聯(lián)網(wǎng)應用訂餐小秘書(shū)也推出了支持語(yǔ)音搜索餐廳功能的Android版及iPhone版客戶(hù)端。此前,百度、谷歌、騰訊、UC、科大訊飛等都陸續推出了自有移動(dòng)語(yǔ)音搜索應用,一時(shí)間語(yǔ)音搜索似乎成為了未來(lái)智能終端的必備選項。
事實(shí)上,與國外不同,目前國內手機語(yǔ)音搜索市場(chǎng)雖然已具備了一定的用戶(hù)需求與初步的技術(shù)積累,但仍處在市場(chǎng)導入期階段。由于目前的技術(shù)現狀無(wú)法準確識別國內用戶(hù)相關(guān)需求,用戶(hù)多將其作為嘗鮮的娛樂(lè )工具而非應用工具,可以看到,我國手機語(yǔ)音搜索應用從起步到成熟仍將有較長(cháng)的路要走。
Siri成功培養用戶(hù)習慣
雖未被廣泛普及,但目前國內手機語(yǔ)音搜索的市場(chǎng)發(fā)展基礎已經(jīng)形成。
首先,手機語(yǔ)音搜索迎合國內手機用戶(hù)需求。用戶(hù)在使用手機時(shí),有相當比例的時(shí)間處在移動(dòng)狀態(tài)下,在這種狀態(tài)下,用戶(hù)視覺(jué)的使用需要在使用手機與其它行為(如觀(guān)察路況等)間進(jìn)行分配,因而無(wú)法專(zhuān)注地使用手機。而語(yǔ)音搜索則解決了這一問(wèn)題,用戶(hù)可以通過(guò)“說(shuō)”來(lái)提交需求,通過(guò)“聽(tīng)”來(lái)獲得反饋,而不會(huì )影響用戶(hù)正常行為。
其次,Siri成功引發(fā)了用戶(hù)語(yǔ)音搜索使用興趣,國內手機語(yǔ)音搜索市場(chǎng)發(fā)展的引爆點(diǎn)已經(jīng)出現。在過(guò)去十多年中,蘋(píng)果公司一直作為行業(yè)引領(lǐng)者而存在,每當其推出了新產(chǎn)品、新應用后,用戶(hù)對其高度認可,并將其作為流行趨勢來(lái)對待,而市場(chǎng)上也隨之會(huì )出現一系列的“借鑒者”,在產(chǎn)品的外觀(guān)、功能等諸多方面進(jìn)行借鑒。可以看到,當Siri被集成到iPhone 4S中后,在其它各類(lèi)應用市場(chǎng)上,迅速出現了上百種與語(yǔ)音相關(guān)的應用,并且凡是涉及到搜索的(包括搜索引擎以及各類(lèi)應用中所涉及到的搜索功能),也無(wú)一例外地加上了語(yǔ)音搜索模塊。
第三,中文語(yǔ)音搜索的技術(shù)基礎已初步形成。語(yǔ)音搜索并非蘋(píng)果公司所獨創(chuàng ),核心技術(shù)也并非完全掌握在蘋(píng)果公司處,這就使得語(yǔ)音搜索的廣泛應用成為可能。語(yǔ)音搜索從技術(shù)本質(zhì)而言,是先對用戶(hù)所說(shuō)的語(yǔ)句進(jìn)行語(yǔ)音識別,再根據識別的結果進(jìn)行搜索,并反饋用戶(hù)相應結果。目前,科大訊飛、谷歌等企業(yè)歷經(jīng)多年的發(fā)展,通過(guò)語(yǔ)音庫、語(yǔ)義庫的構建,已經(jīng)能夠較好地識別用戶(hù)的語(yǔ)音;而語(yǔ)義庫的構建,也實(shí)現了機器對人自然語(yǔ)言的解讀,為更加精確反饋搜索結果奠定了基礎。同時(shí),移動(dòng)互聯(lián)網(wǎng)與云計算的發(fā)展,也使得基于在線(xiàn)龐大語(yǔ)音、語(yǔ)義庫,實(shí)現精準識別成為可能。
中文識別難上加難
盡管手機語(yǔ)音搜索市場(chǎng)基礎已經(jīng)形成,但是短期內市場(chǎng)無(wú)法規模推廣,其根本原因在于目前技術(shù)仍不成熟。
眾所周知,每個(gè)人的口音均有一定的差別,能夠準確識別用戶(hù)在說(shuō)什么,本身就是一件很困難的事,而中文的同音不同字情況較多,將用戶(hù)的語(yǔ)句識別為哪些詞組,還需要考慮上下文的具體情況,相比英文、德文等拉丁語(yǔ)系的一個(gè)發(fā)音明確對應一個(gè)單詞而言,中文的識別難度無(wú)疑會(huì )更高。同時(shí),在中文中,同樣的一句話(huà),在不同的語(yǔ)境中,具備了不同的含義,識別難度會(huì )更大,很難實(shí)現以自然語(yǔ)言進(jìn)行搜索,并準確反饋搜索結果。
此外,為了調用語(yǔ)音、語(yǔ)義庫,以更加精準地理解用戶(hù)的意思,目前不少語(yǔ)音搜索服務(wù)商的做法是將用戶(hù)所說(shuō)的語(yǔ)音上傳到服務(wù)器,由服務(wù)器進(jìn)行識別,但這對網(wǎng)絡(luò )的速度、服務(wù)器的處理能力等提出了較高的要求。
筆者曾對目前較為流行的谷歌語(yǔ)音搜索應用進(jìn)行測試,發(fā)現其對標準普通話(huà)的理解尚可,但如果發(fā)音稍不準確或者出現一些較為冷僻的詞匯,則識別準確度就會(huì )出現明顯下降,需要手工調整;同時(shí),在光纖接入的Wi-Fi環(huán)境下,識別一句完整的話(huà)也需要數十秒的等待時(shí)間。
音調類(lèi)搜索或密集涌現
從長(cháng)期發(fā)展趨勢上看,當語(yǔ)音搜索技術(shù)達到成熟時(shí),手機將成為用戶(hù)的智能助理,用戶(hù)可以用自然語(yǔ)言向手機發(fā)出命令,手機快速完成用戶(hù)的請求,包括執行相關(guān)應用、反饋相關(guān)信息等,而目前的應用如Siri,雖然具備了相應的理念,但尚不能完全實(shí)現相應的功能,特別是基于中文的應用。
為了推動(dòng)手機語(yǔ)音搜索產(chǎn)品加速步入成熟階段,在現階段,將有諸多廠(chǎng)商,按照手機語(yǔ)音搜索成熟階段的理念提供相應產(chǎn)品,并不斷優(yōu)化。這些產(chǎn)品主要包括手機輸入法、搜索框的輸入、手機語(yǔ)音應用等。它們在初期或許并不成熟,用戶(hù)需要努力用標準的普通話(huà)發(fā)音,而不能用自己所常使用的說(shuō)話(huà)方式,并且未必能夠得到精確的反饋結果,因此,此類(lèi)產(chǎn)品往往被用戶(hù)嘗鮮式使用,并被當作一種娛樂(lè )工具而非應用工具,但是,在產(chǎn)品被用戶(hù)使用的過(guò)程中,廠(chǎng)商能夠不斷采集用戶(hù)的聲音、用戶(hù)語(yǔ)言,從而形成較為完善的語(yǔ)音庫、語(yǔ)義庫,使得產(chǎn)品能夠逐步趨向成熟。
同時(shí),手機語(yǔ)音搜索的另一個(gè)發(fā)展方向是音調搜索,例如用戶(hù)想搜索一首音樂(lè ),但他只能記得部分的聲音片段,如果他能夠哼唱出音調,那么搜索工具同樣能夠支持搜索。預計在未來(lái),此類(lèi)產(chǎn)品將不斷涌現。
總之,審視手機語(yǔ)音搜索的商業(yè)模式,筆者認為其不能構建獨立的商業(yè)模式,而將更多作為一種技術(shù)手段,支撐其它各類(lèi)型應用更好地發(fā)展,并且在不斷的信息搜集中,實(shí)現ICT產(chǎn)業(yè)的重要發(fā)展目標之一,即人工智能的深入突破。
通信世界周刊
相關(guān)閱讀:
凤庆县|
康定县|
皮山县|
天镇县|
天镇县|
来宾市|
班戈县|
遂川县|
宁乡县|
大理市|
弥勒县|
新龙县|
江达县|
枝江市|
厦门市|
黄梅县|
延川县|
洪江市|
和田县|
惠东县|
沙洋县|
平阴县|
石河子市|
南开区|
宁海县|
安平县|
浮山县|
托里县|
和田市|
洱源县|
桐柏县|
田东县|
廉江市|
抚远县|
绍兴县|
宁安市|
青阳县|
高密市|
富宁县|
缙云县|
阜城县|