剛填完坑就又埋下 " 驚喜預告 "??
預告多日之后,稚暉君正式官宣首個通用具身基座模型——智元啟元大模型(Genie Operator-1,以下簡稱 GO-1),將具身智能邁向通用全能的門檻進一步降低了。
而且劇透明天還有驚喜。
概括而言,此次發布的 GO-1 大模型主要有以下幾個特點:
人類視頻學習:可以結合互聯網視頻和真實人類示范進行學習,增強模型對人類行為的理解;
小樣本快速泛化:能夠在極少數據甚至零樣本下泛化到新場景、新任務,使得后訓練成本非常低;
一腦多形:能夠在不同機器人形態之間遷移,快速適配到不同本體;
持續進化:搭配智元一整套數據回流系統,可以從實際執行遇到的問題數據中持續進化學習。
網友們也紛紛表示,通用機器人指日可待了!
具體來看,GO-1 大模型由智元機器人聯合上海 AI Lab 共同發布。
通過大規模、多樣化的數據訓練,GO-1 展現出強大的通用性和智能化能力,突破了大量以往具身智能面臨的瓶頸。
按照官方說法,GO-1 除了拓展機器人的運動能力,更重要的是加強了其AI 能力,從而大大增加了機器人的實用價值。
首先,通過學習人類操作視頻,機器人能快速學習新技能了。
比如下面這個倒水的動作:
比如倒完水之后,再烤烤面包并抹上果醬:
數據利用率低:不同機器人收集的數據難以共享,無法充分利用跨本體數據進行訓練;
部署受限:訓練好的模型難以遷移到不同類型的機器人,每個本體往往需要獨立訓練一個模型,增加適配成本。
而用上 GO-1 大模型之后,這些問題都被解決了。
比如下面這個例子中,機器人放咖啡杯時出現失誤,就可以通過數據回流(加上人工審核)針對性優化。
事實上,GO-1 大模型的構建核心圍繞對數據的充分利用展開。
基于具身領域的數字金字塔,GO-1 大模型吸納了人類世界多種維度和類型的數據:
底層:互聯網的大規模純文本與圖文數據,可以幫助機器人理解通用知識和場景;
第 2 層:大規模人類操作 / 跨本體視頻,可以幫助機器人學習人類或者其他本體的動作操作模式;
第 3 層:仿真數據,用于增強泛化性,讓機器人適應不同場景、物體等;
頂層:高質量的真機示教數據,用于訓練精準動作執行。
當然,過程中也少不了一個合適的數據處理架構。
由于現有的 VLA(Vision-Language-Action)架構沒有利用到數字金字塔中大規模人類 / 跨本體操作視頻數據,缺少了一個重要的數據來源,導致迭代的成本更高,進化的速度更慢。
因此,智元團隊創新性地提出了ViLLA(Vision-Language-Latent-Action)架構。
與 VLA 架構相比,ViLLA 通過預測 Latent Action Tokens(隱式動作標記),彌合圖像 - 文本輸入與機器人執行動作之間的鴻溝。它能有效利用高質量的 AgiBot World 數據集以及互聯網大規模異構視頻數據,增強策略的泛化能力。
展開來說,ViLLA 架構是由VLM(多模態大模型)+MoE(混合專家)組成。
其中 VLM 借助海量互聯網圖文數據獲得通用場景感知和語言理解能力,MoE 中的 Latent Planner(隱式規劃器)借助大量跨本體和人類操作數據獲得通用的動作理解能力,MoE 中的 Action Expert(動作專家)借助百萬真機數據獲得精細的動作執行能力。
推理時,VLM、Latent Planner 和 Action Expert三者協同工作:
VLM 采用 InternVL-2B,接收多視角視覺圖片、力覺信號、語言輸入等多模態信息,進行通用的場景感知和指令理解;
Latent Planner 是 MoE 中的一組專家,基于 VLM 的中間層輸出預測 Latent Action Tokens 作為 CoP(Chain of Planning,規劃鏈),進行通用的動作理解和規劃;
Action Expert 是 MoE 中的另外一組專家,基于 VLM 的中間層輸出以及 Latent Action Tokens,生成最終的精細動作序列。
舉個例子,假如用戶給出機器人指令 " 掛衣服 ",模型就可以根據看到的畫面,理解這句話對應的任務要求。然后模型根據之前訓練時看過的掛衣服數據,設想這個過程應該包括哪些操作步驟,最后執行這一連串的步驟,完成整個任務的操作。
結果顯示,相比已有的最優模型,GO-1 成功率大幅領先,平均成功率提高了 32% ( 46%->78% ) 。其中 "Pour Water"(倒水)、"Table Bussing"(清理桌面) 和 "Restock Beverage"(補充飲料) 任務表現尤為突出。
此外團隊還單獨驗證了 ViLLA 架構中 Latent Planner 的作用,可以看到增加 Latent Planner 可以提升 12% 的成功率 ( 66%->78% ) 。
GO-1 發布視頻的最后,相信大家也看到了一個彩蛋:
論文:
https://agibot-world.com/blog/agibot_go1.pdf