人工智能公司使用兩種不同的底層視覺(jué)LLM基礎模型訓練了RT-2的兩種變體:基于PaLM-E的12B參數版本和基于PaLI-X的55B參數版本。LLM在一般視覺(jué)語(yǔ)言數據集和機器人特定數據的混合上共同微調。該模型學(xué)習輸出機器人運動(dòng)命令的向量,該向量被視為簡(jiǎn)單的整數字符串:實(shí)際上,它是模型學(xué)習的一種新語(yǔ)言。最終模型能夠接受機器人工作空間的圖像和用戶(hù)命令,例如“撿起即將從桌子上掉下來(lái)的袋子”,并從中生成運動(dòng)命令來(lái)執行任務(wù)。根據人工智能公司的說(shuō)法,
RT-2不僅展示了人工智能的進(jìn)步如何迅速級聯(lián)到機器人技術(shù)中,還展示了對更多通用機器人的巨大前景。雖然在以人為中心的環(huán)境中啟用有用的機器人仍有大量工作要做,但RT-2向我們展示了機器人技術(shù)令人振奮的未來(lái)。
Google Robotics和人工智能公司已經(jīng)發(fā)布了幾個(gè)使用LLM進(jìn)行機器人控制的系統。2022 年,InfoQ 報道了谷歌的 SayCan,它使用 LLM 為機器人生成高級行動(dòng)計劃,以及代碼即政策,它使用 LLM 生成用于執行機器人控制的 Python 代碼。兩者都使用純文本LLM來(lái)處理用戶(hù)輸入,視覺(jué)組件由單獨的機器人模塊處理。今年早些時(shí)候,InfoQ報道了谷歌的PaLM-E,它處理來(lái)自機器人傳感器的多模態(tài)輸入數據,并輸出一系列高級動(dòng)作步驟。
RT-2 建立在以前的實(shí)現 RT-1 之上。RT系列的關(guān)鍵思想是訓練模型直接輸出機器人命令,這與以前輸出更高層次的運動(dòng)抽象的努力相反。RT-2 和 RT-1 都接受任務(wù)的圖像和文本描述作為輸入。然而,雖然RT-1使用不同視覺(jué)模塊的管道來(lái)生成視覺(jué)令牌以輸入LLM,但RT-2使用單一視覺(jué)語(yǔ)言模型,如PaLM-E。
人工智能公司在6000多次試驗中評估了RT-2。特別是,研究人員對其緊急能力感興趣:即執行機器人特定訓練數據中不存在的任務(wù),但從其視覺(jué)語(yǔ)言預訓練中出現的任務(wù)。該團隊在三個(gè)任務(wù)類(lèi)別上測試了RT-2:符號理解,推理和人類(lèi)識別。與基線(xiàn)相比,RT-2實(shí)現了最佳基線(xiàn)的“超過(guò)3倍的平均成功率”。但是,該模型沒(méi)有獲得機器人訓練數據中未包含的任何物理技能。
在Hacker News關(guān)于這項工作的討論中,一位用戶(hù)評論道:
看起來(lái)這項工作仍然停留在位置/速度控制而不是阻抗控制上。這本質(zhì)上是輸出去哪里,要么是帶有控制器的閉環(huán),要么是帶有運動(dòng)規劃器的開(kāi)環(huán)。這似乎大大降低了數據需求,但它感覺(jué)像是我們可以完成的任務(wù)的基本限制。機器人操縱之所以困難,是因為我們不僅需要考慮世界上正在發(fā)生的事情,還需要考慮我們的互動(dòng)如何改變它以及我們需要如何對此做出反應。
雖然RT-2還沒(méi)有開(kāi)源,但RT-1的代碼和數據已經(jīng)開(kāi)源。