傳音持續(xù)深耕AI語(yǔ)音多模態(tài)技術(shù)，打造本地化智能交互體驗(yàn)

　　伴隨著5G、人工智能技術(shù)的發(fā)展，智能語(yǔ)音已經(jīng)隨著各種智能終端產(chǎn)品滲透到人們的日常生活中，帶來了更多便捷和可能性。作為新興市場(chǎng)智能終端產(chǎn)品和移動(dòng)互聯(lián)服務(wù)提供商，傳音聚焦人工智能領(lǐng)域持續(xù)創(chuàng)新，不斷推進(jìn)AI語(yǔ)音技術(shù)的研究和應(yīng)用，挖掘更多本地化用戶場(chǎng)景要求，為新興市場(chǎng)用戶帶來全場(chǎng)景智能交互體驗(yàn)。

　　目前，傳音已經(jīng)在語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成、自然語(yǔ)言處理、知識(shí)圖譜等方面形成了的自身的AI語(yǔ)音底層技術(shù)能力，構(gòu)建起小語(yǔ)種語(yǔ)音數(shù)據(jù)優(yōu)勢(shì)，并在多語(yǔ)種語(yǔ)音助手、數(shù)字人、語(yǔ)音偽造檢測(cè)技術(shù)方面取得了重大突破。今年以來，傳音AI技術(shù)部成果不斷，接連在ICASSP 2023 SLU口語(yǔ)理解挑戰(zhàn)賽、IJCAI 2023 ADD 語(yǔ)音深度偽造檢測(cè)國(guó)際挑戰(zhàn)賽奪得佳績(jī)，并在國(guó)際多媒體旗艦學(xué)術(shù)會(huì)議ICME 2023上發(fā)表數(shù)字人多模態(tài)交互的相關(guān)學(xué)術(shù)論文。

　　多語(yǔ)種語(yǔ)音助手構(gòu)建本地語(yǔ)音交互內(nèi)容生態(tài)

　　語(yǔ)音助手是智能手機(jī)的標(biāo)配應(yīng)用之一，其核心技術(shù)為語(yǔ)音交互和自然語(yǔ)言理解，旨在幫助用戶更快捷、高效地執(zhí)行目標(biāo)任務(wù)。面對(duì)新興市場(chǎng)本地語(yǔ)音交互的需求，傳音長(zhǎng)期深耕多語(yǔ)種語(yǔ)音助手技術(shù)，著力洞察本地用戶需求，形成技術(shù)解決方案，在探索和研發(fā)過程中沉淀了深厚的技術(shù)能力和實(shí)踐經(jīng)驗(yàn)。

　　在語(yǔ)音技術(shù)領(lǐng)域國(guó)際頂級(jí)會(huì)議ICASSP（IEEE International Conference on Acoustics, Speech and Signal Processing）組織的2023口語(yǔ)理解挑戰(zhàn)賽SLU（Spoken Language Understanding）中，傳音AI技術(shù)部憑借在語(yǔ)音識(shí)別和語(yǔ)義理解方面的突出表現(xiàn)，以71.97%的準(zhǔn)確率獲斬獲離線語(yǔ)音助手子賽道第一名。參賽論文“A Two-Stage System for Spoken Language Understanding”被IEEE電氣與電子工程師協(xié)會(huì)（Institute of Electrical and Electronics Engineers）收錄。

　　傳音AI技術(shù)部同事在ICASSP 2023分享研究成果

　　當(dāng)前，語(yǔ)音助手主要面向主流語(yǔ)言，而對(duì)小眾語(yǔ)言、特定人群等細(xì)分領(lǐng)域覆蓋較少。傳音針對(duì)非洲、南亞等新興市場(chǎng)用戶的本地口音和小語(yǔ)種，依托海量手機(jī)用戶資源，建設(shè)了一套本地化低成本、高質(zhì)量的語(yǔ)料數(shù)據(jù)生產(chǎn)體系，解決小語(yǔ)種語(yǔ)料匱乏、數(shù)據(jù)稀缺的問題。在此基礎(chǔ)上，傳音開發(fā)能適應(yīng)新興市場(chǎng)本地用戶語(yǔ)言文化特點(diǎn)的多語(yǔ)種語(yǔ)音助手，幫助當(dāng)?shù)赜脩舾颖憬莸厥褂帽镜卣Z(yǔ)言與手機(jī)進(jìn)行語(yǔ)音交互。目前，傳音的多語(yǔ)種語(yǔ)音助手技術(shù)已支持英語(yǔ)、法語(yǔ)、豪薩語(yǔ)、阿拉伯語(yǔ)、斯瓦西里語(yǔ)等語(yǔ)言的語(yǔ)音交互和自然語(yǔ)言理解能力，覆蓋聯(lián)系人通話、APP快速啟動(dòng)、音樂播放、WhatsApp消息、閑聊等100多種使用場(chǎng)景。

　　面向本地用戶生活服務(wù)的訴求，傳音的多語(yǔ)種AI語(yǔ)音助手技術(shù)將不斷接入更多生活、出行、學(xué)習(xí)、工作等場(chǎng)景的生態(tài)服務(wù)，構(gòu)建多領(lǐng)域跨語(yǔ)言的AI內(nèi)容服務(wù)生態(tài)，讓智能化語(yǔ)音服務(wù)滲透到本地生活的方方面面，讓更多小語(yǔ)種的使用人群受益。

　　AI+數(shù)字人技術(shù)賦能傳音多場(chǎng)景業(yè)務(wù)

　　隨著交互智能技術(shù)的加速發(fā)展，數(shù)字人正在從技術(shù)創(chuàng)新走向產(chǎn)業(yè)應(yīng)用，在娛樂、教育、醫(yī)療等多個(gè)領(lǐng)域發(fā)揮作用。傳音積極擁抱AI發(fā)展機(jī)遇，提前布局?jǐn)?shù)字人技術(shù)，建立了完備的全鏈路技術(shù)和工程化的自研能力。傳音數(shù)字人系統(tǒng)，包含2D真人和3D寫實(shí)數(shù)字人，擁有基于多語(yǔ)種的語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音喚醒、自然語(yǔ)言理解和數(shù)字人等能力的數(shù)據(jù)資源，在多語(yǔ)種語(yǔ)音對(duì)話、人設(shè)和外觀、智能化場(chǎng)景交互等領(lǐng)域形成了自身的本地化特色和行業(yè)領(lǐng)先性。今年1月，傳音數(shù)字人系統(tǒng)獲得由中國(guó)信通院所頒發(fā)的數(shù)字人領(lǐng)域權(quán)威標(biāo)準(zhǔn)認(rèn)證。這也是當(dāng)前唯一通過中國(guó)信通院評(píng)測(cè)，以“交互對(duì)話”為核心的中國(guó)手機(jī)廠商數(shù)字人系統(tǒng)。

　　為了提高虛擬形象的仿真效果、合成出逼真且富有表現(xiàn)力的數(shù)字人視頻，傳音AI技術(shù)部自研端到端技術(shù)，在優(yōu)化數(shù)字人視頻生成質(zhì)量的過程中，基于Unet網(wǎng)絡(luò)提出了一種新的技術(shù)框架densely-connected Unet結(jié)構(gòu)，同時(shí)引入了CLIP的encoder結(jié)構(gòu)，利用文本語(yǔ)義信息提升數(shù)字人嘴部動(dòng)畫效果。同時(shí)該技術(shù)提出人臉關(guān)鍵點(diǎn)技術(shù)的概率密度圖，增加了模型網(wǎng)絡(luò)的模態(tài)信息，提升了模型生成的質(zhì)量。這一技術(shù)突破能夠讓數(shù)字人的面部形象更加真實(shí)、細(xì)膩，同時(shí)提升語(yǔ)音和唇形的一致性，其生成效果達(dá)到了學(xué)術(shù)上的領(lǐng)先水平。相關(guān)學(xué)術(shù)論文“CPNet: Exploiting CLIP-based Attention Condenser and Probability Map Guidance for High-fidelity Talking Face Generation”被國(guó)際多媒體旗艦學(xué)術(shù)會(huì)議ICME 2023（IEEE International Conference on Multimedia and Expo)成功錄用。

　　目前，傳音數(shù)字人系統(tǒng)已經(jīng)深度應(yīng)用于多業(yè)務(wù)場(chǎng)景，不僅落地海外手機(jī)門店，擔(dān)任智能導(dǎo)購(gòu)員為用戶購(gòu)買手機(jī)提供參考，還作為智能語(yǔ)音助手賦能多類智能終端產(chǎn)品，提升用戶體驗(yàn)。下一步傳音將通過“AI+數(shù)字人”技術(shù)賦能多場(chǎng)景業(yè)務(wù)，積極探索數(shù)字人版語(yǔ)音助手和客服系統(tǒng)等新業(yè)務(wù)形態(tài)，為用戶帶來全新的智能交互體驗(yàn)。

　　持續(xù)構(gòu)建AI語(yǔ)音底層技術(shù)能力

　　在AI技術(shù)快速發(fā)展的現(xiàn)今，算法生成音頻和音頻偽造已經(jīng)可以做到以假亂真，對(duì)于普通用戶來說辨別音頻真假非常困難。為了維護(hù)信息的可信性、保障社會(huì)安全，語(yǔ)音偽造檢測(cè)技術(shù)變得至關(guān)重要，已經(jīng)成為人工智能領(lǐng)域的一個(gè)較新的研究方向。傳音圍繞智能終端產(chǎn)品業(yè)務(wù)場(chǎng)景，以本地用戶需求為導(dǎo)向，不斷延伸AI語(yǔ)音底層技術(shù)能力，布局新技術(shù)領(lǐng)域，在語(yǔ)音偽造檢測(cè)技術(shù)上取得了重大突破。

　　傳音AI技術(shù)部在國(guó)際人工智能聯(lián)合會(huì)議IJCAI 2023（The 32nd International Joint Conference on Artificial Intelligence）組織的第二屆語(yǔ)音深度偽造檢測(cè)國(guó)際挑戰(zhàn)賽ADD（The Second Audio Deepfake Detection Challenge)“篡改區(qū)域定位”（Manipulation Region Location）分賽道上奪得第二名。在比賽中，傳音AI技術(shù)部自研創(chuàng)新的AI模型算法和技術(shù)，能夠準(zhǔn)確識(shí)別并定位音頻中語(yǔ)音的篡改行為，從而有效保障數(shù)字音頻的原始性和真實(shí)性，為AI應(yīng)用及信息安全建設(shè)提供新思路。相關(guān)學(xué)術(shù)論文已成功發(fā)表在本屆IJCAI 2023 Workshop on Deepfake Audio Detection and Analysis (DADA 2023）會(huì)議上。

　　下一步，傳音AI技術(shù)部將繼續(xù)探索語(yǔ)音深度偽造檢測(cè)技術(shù)在傳音智能終端產(chǎn)品上的應(yīng)用，如通話詐騙檢查保護(hù)用戶隱私安全等，不斷提升用戶使用體驗(yàn)。

　　未來，傳音將繼續(xù)在AI語(yǔ)音多模態(tài)技術(shù)領(lǐng)域發(fā)力，圍繞“手機(jī)+移動(dòng)互聯(lián)網(wǎng)服務(wù)+家電、數(shù)碼配件”核心業(yè)務(wù)需求，結(jié)合對(duì)新興市場(chǎng)和本地消費(fèi)者的深刻洞察，為用戶提供適切其需求的智能生活體驗(yàn)，形成本地化的AI內(nèi)容服務(wù)生態(tài)，持續(xù)滿足多語(yǔ)種、多場(chǎng)景、個(gè)性化、智能化的應(yīng)用需求。

97成人免费视频,97视频免费公开成人福利,免费视频99,99婷婷,国产伊人久久,亚洲视频欧美,国产精品福利久久

評(píng)論排行

推薦閱讀

專題

大家都在看

CTI論壇會(huì)員企業(yè)