97成人免费视频,97视频免费公开成人福利,免费视频99,99婷婷,国产伊人久久,亚洲视频欧美,国产精品福利久久

您當前的位置是:  首頁 > 資訊 > IT與互聯網 >
 首頁 > 資訊 > IT與互聯網 >

展望AIGC發(fā)展未來:合成數據將助力AI模型開發(fā) 成為數據要素市場新增量

2023-03-30 10:31:17   作者:   來源:天翼智庫   評論:0  點擊:


  據報道,大模型訓練對數據燃料的需求日益倍增,尤其是對現有的公開文本數據有較強依賴。有研究預測,到2026年ChatGPT的訓練或將耗盡互聯網公開可用文本數據,下一代萬億級別大模型訓練或將面臨存量見底的境遇。在此背景下,有望解決此類數據供給問題的“合成數據”興起,市場規(guī)模迅速擴大。Cognilytica發(fā)布報告稱,合成數據生成市場預計到2027年底將增加到11.5億美元。此外,伴隨《關于構建數據基礎制度更好發(fā)揮數據要素作用的意見》的出臺,數據要素市場亟需增量擴容,對于數據要素優(yōu)質供給的需求也在持續(xù)增加,更高效率、更高質量和更低成本的合成數據將迎來更加廣闊的發(fā)展空間。

  合成數據將助力AI模型開發(fā),成為數據要素市場新增量

  與從真實世界中采集的現實數據相反,合成數據(Synthetic Data)是基于計算機模擬技術或算法人工生成的虛擬數據。它在真實數據集上進行訓練,從數學和統(tǒng)計學上反映了真實數據信息,可以用來獲取極端情況下的訓練數據以填補現有數據缺陷,也可以用來訓練、測試和驗證AI模型。合成數據依賴少部分的高質量真實數據用于初始創(chuàng)建,將大幅減少算法訓練所需的真實數據量,提供了一種更快捷高效的方式來獲取所需數據。目前主要通過以下四種技術路徑來獲取合成數據。

  圖1 合成數據獲取方式

  1. 合成數據對AI模型開發(fā)價值增大,助力形成應用閉環(huán)

  合成數據在人工智能領域具有重要的應用價值。根據Gartner預測,到2024年,用于訓練AI的數據中有60%將是合成數據,到 2030 年,合成數據將完全蓋過 AI 模型中的真實數據,成為AI模型訓練使用數據的主要來源。通過使用合成數據可以快速、準確地構建數據集,以幫助機器學習算法更好地理解和預測現實世界的情況。合成數據也能填補真實數據集中可能存在的數據缺失、數據不足、數據不均衡等問題,提高機器學習算法的魯棒性和泛化能力。此外,在AI 2.0階段,人們可以讓AI在由合成數據構建的虛擬仿真世界中進行自我學習,這將大大拓展AI的潛力邊界。

  2. 合成數據有望成為數據要素市場重要組成部分

  目前,數據要素市場面臨數據采集和標注成本高昂、數據質量難以保障、數據多樣性受限、數據隱私問題等多重挑戰(zhàn)。在建設數據要素市場的過程中,合成數據可以作為數據要素市場中的一種交易對象,幫助買家更好地評估和改進算法性能,提高數據交易的效率和價值。合成數據的具體價值主要體現在以下幾個方面。第一,極大節(jié)省數據采集成本,滿足大規(guī)模數據需求,具有成本效益;第二,有效解決數據隱私與數據安全問題,在金融、醫(yī)療等用戶信息較敏感的領域應用價值巨大。第三,確保數據多樣性,預測邊緣情況,進而避免算法歧視,打造更公正更普惠的人工智能模型。第四,提高數據利用的靈活性,使數據利用更加定制化。合成數據可以根據特定場景和需求生成具有特定屬性的數據,滿足特定情境的數據需求。

  合成數據產業(yè)布局細分四大方向,應用領域前景廣闊

  眾多科技廠商和創(chuàng)新企業(yè)已經意識到合成數據在人工智能領域的巨大價值,開始搶先投入和布局。從合成數據供給側視角,合成數據的產業(yè)布局可分為結構化數據(表格數據)、非結構化數據(視頻、圖像等)、測試數據、開源服務等四大方向,代表企業(yè)與提供服務如下表:

  在此基礎上,英偉達、微軟等大型科技企業(yè)也紛紛與上述部分合成數據供應廠商合作,推出平臺服務。如英偉達與AI Reverie、Sky Engine合作,在其Omniverse元宇宙平臺中加載了omniverse replicator合成數據能力,用于創(chuàng)建機器人訓練的虛擬環(huán)境以及模擬豐富的自動駕駛現實場景。

  從應用側來看,合成數據的應用領域十分廣泛,早期主要應用于計算機視覺領域,現在正向金融、醫(yī)療、零售甚至運營商領域拓展,具有廣闊的市場前景和價值空間。未來,隨著產業(yè)技術越來越成熟,合成數據將會賦能更多行業(yè)和領域,幫助企業(yè)解決實際問題,給企業(yè)帶來業(yè)務突破和發(fā)展。

  合成數據潛在風險與局限

  合成數據雖然有諸多優(yōu)勢和廣闊的應用前景,但由于技術手段、產業(yè)發(fā)展等方面限制,合成數據仍存在一定潛在風險和局限性,因此在使用合成數據時,要注意在一定程度上規(guī)避和防范。

  合成數據在技術精度上仍存在一定局限。合成數據的質量通常取決于創(chuàng)建它的模型和開發(fā)數據集的質量,使用高質量的真實數據作為起點就顯得尤為重要。如果合成數據不準確或與真實世界數據不匹配,這可能導致生成不合邏輯的非自然數據。因此,創(chuàng)建合成數據時需要額外對數據質量進行評估和管理,與人工標注的真實數據進行比較確保兩者的匹配程度。

  合成數據存在“隱式隱私”泄露問題。目前,合成數據不可避免地需要依賴小部分真實數據用于訓練數據模型。在模型訓練過程中,存在記憶原始訓練樣本分布,通過逆向工程反推原始訓練數據的風險。如何平衡好保真度和隱私保護之間的關系亟待探討。

  合成數據賦能電信運營商

  業(yè)務相關建議

  在電信運營商領域,西班牙電信運營商Telefónica已經對合成數據的應用價值進行了初步探索。未來,隨著AIGC技術能力全面提升,基于AIGC技術的合成數據也將展現出更大的發(fā)揮空間,充分賦能于運營商現有業(yè)務發(fā)展和新業(yè)務領域拓展,助力運營商迎來新一輪變革。

  合成數據將驅動運營商現有業(yè)務向高效、智能化發(fā)展。在不提供用戶敏感信息的前提下,模擬真實客戶數據的統(tǒng)計模式,根據現有用戶數據進行推演形成其他屬性,通過合成數據集訓練精準營銷模型、客戶流失預警模型等,進而提升獲利能力。還可以利用這一合規(guī)可用的數據源更加高效廉價地訓練智能客服或虛擬數字人,從而提升用戶服務感知。

  合成數據也將幫助運營商找到新定位、拓展新領域。合成數據產業(yè)的興起可促進運營商向數據服務商身份發(fā)展,拓展新業(yè)務領域,解鎖數據資產價值。結合運營商自身真實數據資源生成無統(tǒng)計學相關性的合成數據,向外部有數據需要的企業(yè)出售相關訓練數據產品,也可與外部企業(yè)合作,提供基于合成數據的咨詢服務。

【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

相關閱讀:

專題

CTI論壇會員企業(yè)

义乌市| 独山县| 巴中市| 宝应县| 闵行区| 华坪县| 祁连县| 尼木县| 京山县| 汾阳市| 耒阳市| 徐水县| 岳池县| 上蔡县| 无为县| 石河子市| 阿鲁科尔沁旗| 临城县| 长顺县| 遂昌县| 乐山市| 镇巴县| 常熟市| 宝山区| 永和县| 渭源县| 达州市| 纳雍县| 日喀则市| 紫阳县| 白朗县| 庆元县| 会昌县| 泸西县| 宝清县| 蓝田县| 望奎县| 克拉玛依市| 仲巴县| 盐源县| 息烽县|