VoiceServer 2.0產(chǎn)品白皮書
——基于VoiceXML的可編程語音平臺
2002/09/29
1. 概述 信息技術革命將人類社會推進到信息社會,企業(yè)的經(jīng)營管理、個人的休閑理財都離不開信息。人們比以前的任何時期都更加渴望能夠隨時隨地得到信息。而語音作為人類最原始、最自然的交流方式,最受人們的青睞。Evans
Group Research對250個使用不同語音系統(tǒng)的用戶進行的調(diào)查表明, 83%的用戶更喜歡使用語音系統(tǒng)而不是按鍵式系統(tǒng)。
在激烈的市場競爭中,企業(yè)、服務提供商一直在尋求完善客戶服務的途徑。金融、電信等領域實施呼叫中心的成功經(jīng)驗,使企業(yè)、服務提供商體會到語音服務帶來的經(jīng)濟效益和社會效益。提供更為人性化、智能化的語音服務系統(tǒng),提供24小時全天候的自助服務系統(tǒng),已成為企業(yè)和服務提供商重要的市場策略。
1.2. 技術基礎
近幾年來,計算機語音識別(ASR)和語音合成(TTS)技術的突破給語音應用提供了堅實的基礎,與此同時VoiceXML的標準化更使語音應用生機勃勃。
語音識別技術是指將人說話的音頻信號轉換為可被計算機所識別的文字信息,而語音合成技術則是指將文字信息轉變?yōu)橐纛l信息的技術。事實上,語音識別產(chǎn)品進入大眾視野只有短短的4年。1998
年IBM 率先推出ViaVoice引發(fā)了語音應用的熱潮,研究機構和企業(yè)廠家紛紛研制各具特色的語音產(chǎn)品。通過識別算法的改良,同時得益于硬件能力的提高,今天優(yōu)秀的語音識別系統(tǒng)的識別率高達95%以上,完全能夠滿足商業(yè)應用的需求。而語音合成技術則已經(jīng)能夠實現(xiàn)自然、流暢的文字合成。
VoiceXML 是由IBM 、Lucent、Motorola 和AT&T 四家公司于2000年提出的一種應用于語音瀏覽的標記語言。如下圖所示,VoiceXML是各廠商多年經(jīng)驗積累的產(chǎn)物,VoiceXML
Forum更是得到業(yè)界廣泛的支持,同時VoiceXML由W3C組織標準化,成為事實上的工業(yè)標準。
1.3. 市場機遇
語音應用市場的構成如下圖所示:
3.3.1. 語音識別
可選功能。
系統(tǒng)支持語音識別功能,并且系統(tǒng)能同時支持語音輸入和DTMF鍵輸入。
3.3.2. 語音合成
可選功能。
系統(tǒng)支持語音合成功能,支持中文普通話、中文粵語、英語等。語音菜單、語音提示均可以通過語音合成后播放。
3.3.3. 收發(fā)傳真
可選功能。
系統(tǒng)支持傳真功能,用戶可以通過該系統(tǒng)接收、發(fā)送TIFF文件。
3.3.4. 呼入排隊
可選功能。
系統(tǒng)支持按話務員組、技能組等路由的呼入排隊功能。
3.3.5. 電話呼出
可選功能。
系統(tǒng)支持呼出功能,其呼出任務管理系統(tǒng)支持呼出的重試、超時等功能。
5基于VoiceXML的可編程語音平臺
3.3.6. 呼叫轉移
可選功能。
系統(tǒng)支持呼叫轉移功能,提供呼叫轉移、電話會議等功能。
3.3.7. 錄制語音
基本功能。
系統(tǒng)支持錄音功能,錄音內(nèi)容可以回放、保存等。
3.3.8. 播放語音
基本功能。
系統(tǒng)可以播放預先錄制的語音文件,支持的語音文件格式包括PCM linear、PCM a-law,、PCM u-law、ADPCM等。
3.3.9. 接收按鍵
基本功能。
系統(tǒng)可以接收用戶可以通過DTMF鍵輸入的信息或選擇的菜單。
3.3.10. 業(yè)務詳單
基本功能。
系統(tǒng)產(chǎn)生XML格式的詳細話單供帳務系統(tǒng)處理。
3.3.11. Javascript
基本功能。
系統(tǒng)支持在VoiceXML中的javascript及標準的Session變量,支持的預定義類型包括數(shù)字等。
3.3.12. 流程控制
基本功能。
系統(tǒng)提供javascript實現(xiàn)的VoiceXML流程控制模板,以提供編寫結構化VoiceXML的方式。
3.3.13. 業(yè)務組件
可選功能。
系統(tǒng)支持在VoiceXML中使用客戶定制的業(yè)務組件。
3.3.14. 平臺管理
基本功能。
系統(tǒng)提供平臺管理系統(tǒng),提供業(yè)務統(tǒng)計、業(yè)務監(jiān)控功能。
3.4. 系統(tǒng)結構
3.4.1. 系統(tǒng)結構圖
3.4.2. 語音瀏覽器
VoiceXML 語音瀏覽器(Voice Browser)是系統(tǒng)的控制中心,包括VoiceXML解析和會話控制兩部分。其中,VoiceXML
解析部分功能如下:
3.4.4. 服務提供層
服務提供層(Service Provider Layer)實現(xiàn)服務適配層的接口。系統(tǒng)目前提供的服務提供者包括:
3.4.5. 應用服務器
應用服務器(Application Server)用于存放或產(chǎn)生VoiceXML腳本,可以是文件系統(tǒng)或Web服務器。一般的,文件系統(tǒng)應用于靜態(tài)腳本,Web
服務器應用于動態(tài)腳本。對于動態(tài)腳本,ASP、JSP、PHP等任何用于動態(tài)產(chǎn)生HTML腳本的技術均適用于VoiceXML。對于動態(tài)腳本,應用服務器還負責與后臺業(yè)務邏輯服務器接口。
3.4.6. 業(yè)務訪問層
業(yè)務訪問層(Business Access Layer)用于訪問企業(yè)、服務提供商的后臺業(yè)務邏輯,系統(tǒng)支持服務器端和客戶端兩種方式。
服務器端方式一般用于動態(tài)VoiceXML腳本,在ASP/JSP/PHP中訪問后臺業(yè)務邏輯,并根據(jù)業(yè)務操作結果向語音瀏覽器返回VoiceXML腳本。
客戶端方式利用VoiceXML<object>的標記,在語音瀏覽器中執(zhí)行業(yè)務操作。系統(tǒng)支持將DLL、COM/COM+組件、JavaBean、xml/http等作為<object>訪問后臺業(yè)務邏輯。
3.4.7. 操作、管理和維護(OA&M)
操作管理維護終端提供業(yè)務監(jiān)控、業(yè)務管理和業(yè)務統(tǒng)計功能。
8基于VoiceXML的可編程語音平臺
4. 語音應用
VoiceServer具有廣泛的應用前景,可以應用于:
信息查詢
自助服務
通知服務
消息服務。
部分應用舉例如下表所示:
聲軟科技公司供稿 CTI論壇編輯
Voicesoft VAS虛擬前臺系統(tǒng) 2005-09-30 |
上海聲軟 VS MsgCOM短消息通信平臺 2005-09-16 |
上海聲軟 VSFax企業(yè)傳真服務器 2005-09-06 |
基于VoiceXML的商用開放式語音平臺OpenIVR 2005-05-13 |
電話用戶與Web對話的橋梁——VoiceXML語言 2005-05-09 |