日本一区二区三区久久-日本一区二区三区久久精品-日本一区二区三区日本免费-日本一区二区三区在线观看视频-国产不卡免费视频-国产不卡视频

量子位前天

稚暉君預告揭曉！智元機器人發布首個通用具身基座模型 GO-1

剛填完坑就又埋下 " 驚喜預告 "？？

預告多日之后，稚暉君正式官宣首個通用具身基座模型——智元啟元大模型（Genie Operator-1，以下簡稱 GO-1），將具身智能邁向通用全能的門檻進一步降低了。

而且劇透明天還有驚喜。

話不多說，我們直接看今天發布的東西：

概括而言，此次發布的 GO-1 大模型主要有以下幾個特點：

人類視頻學習：可以結合互聯網視頻和真實人類示范進行學習，增強模型對人類行為的理解；

小樣本快速泛化：能夠在極少數據甚至零樣本下泛化到新場景、新任務，使得后訓練成本非常低；

一腦多形：能夠在不同機器人形態之間遷移，快速適配到不同本體；

持續進化：搭配智元一整套數據回流系統，可以從實際執行遇到的問題數據中持續進化學習。

網友們也紛紛表示，通用機器人指日可待了！

首個通用具身基座模型 GO-1

具體來看，GO-1 大模型由智元機器人聯合上海 AI Lab 共同發布。

通過大規模、多樣化的數據訓練，GO-1 展現出強大的通用性和智能化能力，突破了大量以往具身智能面臨的瓶頸。

按照官方說法，GO-1 除了拓展機器人的運動能力，更重要的是加強了其AI 能力，從而大大增加了機器人的實用價值。

首先，通過學習人類操作視頻，機器人能快速學習新技能了。

比如下面這個倒水的動作：

而且機器人還具備了一定的物體跟蹤能力，即使隨意移動水杯位置，它也能精準倒水。

與此同時，機器人不止掌握已經學過的操作，還能識別并操作未見過的物品（僅通過百條級數據就能實現快速泛化）。

比如倒完水之后，再烤烤面包并抹上果醬：

另外，當前的具身模型通常針對單一機器人本體（Hardware Embodiment）進行設計，這導致兩個問題：

數據利用率低：不同機器人收集的數據難以共享，無法充分利用跨本體數據進行訓練；

部署受限：訓練好的模型難以遷移到不同類型的機器人，每個本體往往需要獨立訓練一個模型，增加適配成本。

而用上 GO-1 大模型之后，這些問題都被解決了。

可以看到，多個相同 / 不同本體的機器人能夠共同協作完成復雜任務。

此外，GO-1 大模型還支持數據飛輪持續提升。即在實際操作過程中不斷回流數據尤其是執行出現問題的數據，持續驅動優化模型性能。

比如下面這個例子中，機器人放咖啡杯時出現失誤，就可以通過數據回流（加上人工審核）針對性優化。

對了，GO-1 大模型也為機器人增加了新的語音交互方式，這極大便利了用戶在現實場景中自由表達需求。

基于全新 ViLLA 架構

事實上，GO-1 大模型的構建核心圍繞對數據的充分利用展開。

基于具身領域的數字金字塔，GO-1 大模型吸納了人類世界多種維度和類型的數據：

底層：互聯網的大規模純文本與圖文數據，可以幫助機器人理解通用知識和場景；

第 2 層：大規模人類操作 / 跨本體視頻，可以幫助機器人學習人類或者其他本體的動作操作模式；

第 3 層：仿真數據，用于增強泛化性，讓機器人適應不同場景、物體等；

頂層：高質量的真機示教數據，用于訓練精準動作執行。

有了這些數據，可以讓機器人在一開始就擁有通用的場景感知和語言能力，通用的動作理解能力，以及精細的動作執行力。

當然，過程中也少不了一個合適的數據處理架構。

由于現有的 VLA（Vision-Language-Action）架構沒有利用到數字金字塔中大規模人類 / 跨本體操作視頻數據，缺少了一個重要的數據來源，導致迭代的成本更高，進化的速度更慢。

因此，智元團隊創新性地提出了ViLLA（Vision-Language-Latent-Action）架構。

與 VLA 架構相比，ViLLA 通過預測 Latent Action Tokens（隱式動作標記），彌合圖像 - 文本輸入與機器人執行動作之間的鴻溝。它能有效利用高質量的 AgiBot World 數據集以及互聯網大規模異構視頻數據，增強策略的泛化能力。

展開來說，ViLLA 架構是由VLM（多模態大模型）+MoE（混合專家）組成。

其中 VLM 借助海量互聯網圖文數據獲得通用場景感知和語言理解能力，MoE 中的 Latent Planner（隱式規劃器）借助大量跨本體和人類操作數據獲得通用的動作理解能力，MoE 中的 Action Expert（動作專家）借助百萬真機數據獲得精細的動作執行能力。

推理時，VLM、Latent Planner 和 Action Expert三者協同工作：

VLM 采用 InternVL-2B，接收多視角視覺圖片、力覺信號、語言輸入等多模態信息，進行通用的場景感知和指令理解；

Latent Planner 是 MoE 中的一組專家，基于 VLM 的中間層輸出預測 Latent Action Tokens 作為 CoP（Chain of Planning，規劃鏈），進行通用的動作理解和規劃；

Action Expert 是 MoE 中的另外一組專家，基于 VLM 的中間層輸出以及 Latent Action Tokens，生成最終的精細動作序列。

舉個例子，假如用戶給出機器人指令 " 掛衣服 "，模型就可以根據看到的畫面，理解這句話對應的任務要求。然后模型根據之前訓練時看過的掛衣服數據，設想這個過程應該包括哪些操作步驟，最后執行這一連串的步驟，完成整個任務的操作。

與此同時，通過 ViLLA 架構，智元團隊在五種不同復雜度任務上測試 GO-1。

結果顯示，相比已有的最優模型，GO-1 成功率大幅領先，平均成功率提高了 32% ( 46%->78% ) 。其中 "Pour Water"（倒水）、"Table Bussing"（清理桌面）和 "Restock Beverage"（補充飲料）任務表現尤為突出。

此外團隊還單獨驗證了 ViLLA 架構中 Latent Planner 的作用，可以看到增加 Latent Planner 可以提升 12% 的成功率 ( 66%->78% ) 。

還有一個彩蛋

GO-1 發布視頻的最后，相信大家也看到了一個彩蛋：

不知道內容是否和稚暉君的最新預告有關，明天我們繼續蹲蹲 ~

論文：

https://agibot-world.com/blog/agibot_go1.pdf

宙世代

ZAKER旗下Web3.0元宇宙平臺

一起剪

ZAKER旗下免費視頻剪輯工具

相關標簽

機器人 ai

日本一区二区三区久久-日本一区二区三区久久精品-日本一区二区三区日本免费-日本一区二区三区在线观看视频-国产不卡免费视频-国产不卡视频

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

稚暉君預告揭曉！智元機器人發布首個通用具身基座模型 GO-1

宙世代

一起剪

相關閱讀

女子iPhone16Pro Max 屏幕點不動 客服：我的手機也有這種情況

出手即王炸！智元靈犀X2機器人：騎自行車 做閨蜜 縫葡萄樣樣拿手

用戶又有福了！微軟推出專為Copilot設計的新廣告

鴻蒙智行法務部：正式起訴自媒體“我是大彬同學”

雷神推出新款32寸顯示器：4K 240Hz屏到手8999元

亞馬遜云科技宣布提供完全托管的DeepSeek-R1模型

專家談影視劇分鐘級被盜版上網：大家一起抵制 公眾是最大受害者

傳次世代Xbox后年問世

煎熬5年終上市，90后創立的獨角獸將成“智能影像第一股”

曝蘋果屏下Face ID已在路上：折疊iPad Pro首發

主攻智能座艙解決方案，艾博連正把AI大模型搬上車

央視曝光！家庭攝像頭或存隱私漏洞，最好的防護策略就是不裝？

華為前員工創業年入近45億，靠小小“價簽”撐起一個IPO

對話像素綻放 PixelBloom (AiPPT.com)與印象筆記，直擊 AI 辦公核心戰場

互聯網大廠的AI APP大戰：亂成一鍋粥，誰都怕錯過

最新評論

量子位

熱門推薦

女子iPhone16Pro Max 屏幕點不動客服：我的手機也有這種情況

出手即王炸！智元靈犀X2機器人：騎自行車做閨蜜縫葡萄樣樣拿手

專家談影視劇分鐘級被盜版上網：大家一起抵制公眾是最大受害者