CTI論壇(ctiforum.com)(編譯/老秦): 去年,我們報告了語音作為一種消費現(xiàn)象終于做回了它自己。自從2011年大多數(shù)行業(yè)引入了蘋果的智能助手Siri以來,這個行業(yè)被一致認為將出現(xiàn),分析人士認為,衡量經(jīng)濟增長的指標可能會發(fā)生變化。寄希望于明年引入語音引擎到移動設備上的重大影響,語音引擎的復合年增長率(CAGR)達到了22.07%。

“只有少數(shù)公司收取許可費用,”Opus Research創(chuàng)始人兼首席分析師Dan Miller說。“這曾經(jīng)是IVR模式。只有少數(shù)公司仍然這樣做。相比之下,蘋果的語音識別通過出售更多的手機增加了收入。谷歌則通過非常準確的語音識別應用這樣一種方式增強了他們的廣告收入。”
另一方面,全球行業(yè)分析師最近預測,面容和語音生物識別市場到2020年將達到47億美元,這是由于在國防、跨國銀行和醫(yī)療行業(yè)日益增長的需求而導致的。這些預測包括專注于語音技術多年的行業(yè)領導者,像Sensory公司和Nuance。
隨著主要的消費品牌開始進入市場,2016年的建議是,雖然語音識別技術的增長越來越強勁,但是這種增長獨立于其它的產(chǎn)品或服務,這可能導致由于以前并沒有進入這一市場的大公司的進入而放緩,例如微軟、谷歌、和亞馬遜等。
消費者語音
“因為亞馬遜的Echo這款產(chǎn)品,讓我看到了這項技術在家庭環(huán)境中的滲透,”Conversational Technologies總裁黛博拉·達爾(Deborah Dahl)說,他指出語音在消費者層面是用戶接口界面(UI)的理想候選人:“語音設備正變得更聰明。”
盡管亞馬遜拒絕透露Echo的具體銷售數(shù)字,而嵌入它的語音技術的無線揚聲器是亞馬遜最暢銷的產(chǎn)品,在Black Friday上售價超過100美元。
Echo揚聲器議與亞馬遜專有的IVR助理Alexa一樣,它們允許客戶參與與亞馬遜相關的活動,范圍從可以在亞馬遜Prime上聽音樂到可以在客戶愿望列表中下單。此外,它可以控制各種設備,包括WeMo、飛利浦Hue、SmartThings、Insteon和Wink等,并提供開發(fā)人員可以使用的應用程序編程接口(API)。
Alexa可能是亞馬遜2013年收購Ivona技術后的產(chǎn)品,這種收購和實現(xiàn)模式恰恰反映了當前語音市場的復雜性。
達爾(Dahl)和米勒(Miller)都預測未來消費者語音市場發(fā)展的中心在解決互操作性的問題上。
“看看那些針對物聯(lián)網(wǎng)而開發(fā)出來的產(chǎn)品是有趣的,”達爾(Dahl)說。“Echo正在被集成到設備上用于控制功能,我相信Jibo(由麻省理工學院私人機器人研究小組主任辛西婭。布雷西亞牽頭的采用眾籌方式的智能輔助機器人)也將是一樣。但是這些生態(tài)系統(tǒng)如何與另一個兼容?例如,蘋果公司有一個家庭環(huán)境的生態(tài)系統(tǒng)。消費者會得到嗎?他們將集成Echo嗎?”
米勒(Miller)聲稱,由于專利封鎖將會有斷點。“一些將關閉,”他說。“蘋果是非常封閉的。但是你會看到共享。例如,Siri需要跟其他機器人交談以便預定晚餐,或尋找商品和服務。這應該是發(fā)展的方向。”
語音API
語音識別現(xiàn)在逐步與自然語言理解相輔相成,2016年這兩方面的發(fā)展將會遇到大數(shù)據(jù)問題。
“語音識別的準確率僅在過去的16個月開始比以往任何時候都要好,”米勒(Miller)說。
“在硅谷巨頭們之間將會朝著共享努力的方向前進,”他繼續(xù)說道,并與達爾(Dahl)一起舉了Facebook對Wit。ai的收購的例子,Wit。ai是一款允許開發(fā)人員構建語音接口的API。Facebook與VirtuOz相比一直保持著API的開放,VirtuOz是語音控制虛擬助理的先行者,由來自于Wit。ai的Alexandre Lebrun所創(chuàng)立,并于2013年賣給了Nuance。
達爾(Dahl)還提到微軟LUIS(語言理解智能服務),IBM Watson認知計算套件和Api。ai,作為軟件開發(fā)人員工具包,作為獨立程序員將語音識別技術添加到他們的應用程序當中。
她指出,離線語音識別是一個新興領域。“在這個領域中Sensory是真正的領袖,”她說。“他們驅動市場進入大詞匯應用。”Sensory和較小的德國公司Linguwerk專注于低內(nèi)存和低能耗的準確語音識別技術。
智能化企業(yè)助理
在語音消費者市場找到了自身發(fā)展道路的同時,企業(yè)情報系統(tǒng)繼續(xù)發(fā)展。在Gartner今年的研討會上分析師預測,到2018年,45%增長最快的企業(yè)將減少員工數(shù)量而用智能機器代替,致力于IVR和自言語言理解技術的開發(fā)人員為企業(yè)的這一想法鋪平了道路。
米勒(Miller)稱,約有15%的企業(yè)情報系統(tǒng)2015年已經(jīng)在某種程度上實現(xiàn)了自動語音,2016年這一比例將持續(xù)增長。
“你會看到像NextIT、Creative Virtual、[24]7和Intelliresponse這樣的供應商,出售一些會話資源可以用來當客戶或潛在客戶致電呼叫中心的時候回答問題,根據(jù)支持自動客戶助手做IVR曾經(jīng)做的事情,”他說,挑出行業(yè)的領導者Nuance作為領跑者。“Nuance使用NinaWeb和NinaMobile作為微分器。這兩款產(chǎn)品都是自然語言的,支持聊天,主要是語音應用。”達爾(Dahl)表示同意,并認為Openstream的EVA可以作為一個候選,在制訂他們的客戶交互策略時增加智能輔助功能。
米勒(Miller)也提到了Interactions,一家CRM供應商,它收購了AT&T Watson,包括全自動語音識別功能,TTS(語音合成)和語音生物識別引擎。
其他的發(fā)展和預測
像Echo和Siri之所以如此之快的變得如此之好的部分原因,是因為計算能力已經(jīng)開始使深度學習成為可能,“達爾(Dahl)說。”在過去的幾年中計算機科學家除了能夠在輸入和輸出之間分層之外,他們又重新回到了神經(jīng)網(wǎng)絡的理念上。這使訓練系統(tǒng)變得簡單,而過去必須非常辛苦地合在一起。在語音情況下,人們不得不數(shù)字化訓練數(shù)據(jù)的話語。“
達爾(Dahl)還指出來自于W3C的狀態(tài)圖XML的出現(xiàn)。”應用程序很好地基本上控制了對話。我希望一旦完成,它將能夠提高對話處理。“
米勒(Miller)認為語音生物識別技術應用在專有身份驗證時變的更集成化了。”例如,在蘋果的iPhone 6S上,Siri的叫醒是個性化的。一旦我說“嘿,Siri”三次,我可以用這來叫醒,但我的妻子不能。這就是開始使用類似語音生物測定技術,個性化應用。將你的聲音用來驗證你的公民身份,附帶上你所有的權利和信用,這還有很長的路要走。一旦實現(xiàn),這將創(chuàng)造出一個非常肥沃的電子商務領域。“
聲明:版權所有 非合作媒體謝絕轉載