Meta開(kāi)源的新模型ImageBind,是第一個(gè)能夠一次從6種不同方式結合信息的AI模型。 核心概念是將 6 種類(lèi)型的數據數據鏈接到單一的 embedding space,包括視覺(jué)數據(圖片和視頻的形式)、熱(像是紅外線(xiàn)影像)、文字、音頻、深度信息,以及最耐人尋味的 IMU(Inertial Measurement Unit,慣性測量單元)讀數。
ImageBind 模型的概念架構
這聽(tīng)起來(lái)有點(diǎn)抽象,但正是這個(gè)概念支撐起近來(lái)生成式 AI 的蓬勃發(fā)展。
比方說(shuō),Midjourney、Stable Diffusion、DALL-E 等文字轉成圖片的 AI 工具,在模型訓練階段就將文字和圖片鏈接在一起,它們在視覺(jué)數據中尋找模式,同時(shí)將信息和圖片描述鏈接在一起。 這就是這些 AI 工具能夠根據用戶(hù)的文字提示產(chǎn)生圖片的原因,許多同樣以文字提示產(chǎn)生視頻或音頻的 AI 工具也是如此。
在這概念下,未來(lái)的 AI 系統統能以同樣的模式交叉引用數據資料。 比方說(shuō),想象有個(gè)新的虛擬現實(shí)設備,它不僅可以產(chǎn)生聲音、視覺(jué)影像,還能產(chǎn)生物理環(huán)境中的動(dòng)作感受。 當你想要模擬一趟海上之旅,虛擬現實(shí)系統不僅讓你置身在一艘船上,背景有海浪聲,還會(huì )讓你感受腳下的甲板搖晃、吹來(lái)涼爽的海風(fēng)等等。
Meta 認為其他感官的數據資料,未來(lái)可望加入模型當中,例如觸摸、口語(yǔ)、氣味或者大腦 fMRI(功能性磁振造影)等。
雖然ImageBind只是Meta旗下一項項目,還沒(méi)有具體應用成果,卻指出生成式AI未來(lái)一大發(fā)展方向,同時(shí)對應到Meta重金投入的虛擬現實(shí)、混合實(shí)境以及元宇宙等愿景。
ImageBind 的研究不僅很有意思,Meta 更是堅定站在開(kāi)源陣營(yíng)當中,相較于 OpenAI、Google 等公司有不同做法。 ImageBind 也延續 Meta 既有策略,向開(kāi)發(fā)者和研究人員公開(kāi)研究成果。