日本一区二区三区久久-日本一区二区三区久久精品-日本一区二区三区日本免费-日本一区二区三区在线观看视频-国产不卡免费视频-国产不卡视频

關于ZAKER 合作
量子位 前天

稚暉君預告揭曉!智元機器人發布首個通用具身基座模型 GO-1

剛填完坑就又埋下 " 驚喜預告 "??

預告多日之后,稚暉君正式官宣首個通用具身基座模型——智元啟元大模型(Genie Operator-1,以下簡稱 GO-1),將具身智能邁向通用全能的門檻進一步降低了。

而且劇透明天還有驚喜。

話不多說,我們直接看今天發布的東西:

概括而言,此次發布的 GO-1 大模型主要有以下幾個特點:

人類視頻學習:可以結合互聯網視頻和真實人類示范進行學習,增強模型對人類行為的理解;

小樣本快速泛化:能夠在極少數據甚至零樣本下泛化到新場景、新任務,使得后訓練成本非常低;

一腦多形:能夠在不同機器人形態之間遷移,快速適配到不同本體;

持續進化:搭配智元一整套數據回流系統,可以從實際執行遇到的問題數據中持續進化學習。

網友們也紛紛表示,通用機器人指日可待了!

首個通用具身基座模型 GO-1

具體來看,GO-1 大模型由智元機器人聯合上海 AI Lab 共同發布。

通過大規模、多樣化的數據訓練,GO-1 展現出強大的通用性智能化能力,突破了大量以往具身智能面臨的瓶頸。

按照官方說法,GO-1 除了拓展機器人的運動能力,更重要的是加強了其AI 能力,從而大大增加了機器人的實用價值。

首先,通過學習人類操作視頻,機器人能快速學習新技能了。

比如下面這個倒水的動作:

而且機器人還具備了一定的物體跟蹤能力,即使隨意移動水杯位置,它也能精準倒水。

與此同時,機器人不止掌握已經學過的操作,還能識別并操作未見過的物品(僅通過百條級數據就能實現快速泛化)。

比如倒完水之后,再烤烤面包并抹上果醬:

另外,當前的具身模型通常針對單一機器人本體(Hardware Embodiment)進行設計,這導致兩個問題:

數據利用率低:不同機器人收集的數據難以共享,無法充分利用跨本體數據進行訓練;

部署受限:訓練好的模型難以遷移到不同類型的機器人,每個本體往往需要獨立訓練一個模型,增加適配成本。

而用上 GO-1 大模型之后,這些問題都被解決了。

可以看到,多個相同 / 不同本體的機器人能夠共同協作完成復雜任務。

此外,GO-1 大模型還支持數據飛輪持續提升。即在實際操作過程中不斷回流數據尤其是執行出現問題的數據,持續驅動優化模型性能。

比如下面這個例子中,機器人放咖啡杯時出現失誤,就可以通過數據回流(加上人工審核)針對性優化。

對了,GO-1 大模型也為機器人增加了新的語音交互方式,這極大便利了用戶在現實場景中自由表達需求。

基于全新 ViLLA 架構

事實上,GO-1 大模型的構建核心圍繞對數據的充分利用展開。

基于具身領域的數字金字塔,GO-1 大模型吸納了人類世界多種維度和類型的數據:

底層:互聯網的大規模純文本與圖文數據,可以幫助機器人理解通用知識和場景;

第 2 層:大規模人類操作 / 跨本體視頻,可以幫助機器人學習人類或者其他本體的動作操作模式;

第 3 層:仿真數據,用于增強泛化性,讓機器人適應不同場景、物體等;

頂層:高質量的真機示教數據,用于訓練精準動作執行。

有了這些數據,可以讓機器人在一開始就擁有通用的場景感知和語言能力,通用的動作理解能力,以及精細的動作執行力。

當然,過程中也少不了一個合適的數據處理架構。

由于現有的 VLA(Vision-Language-Action)架構沒有利用到數字金字塔中大規模人類 / 跨本體操作視頻數據,缺少了一個重要的數據來源,導致迭代的成本更高,進化的速度更慢。

因此,智元團隊創新性地提出了ViLLA(Vision-Language-Latent-Action)架構

與 VLA 架構相比,ViLLA 通過預測 Latent Action Tokens(隱式動作標記),彌合圖像 - 文本輸入與機器人執行動作之間的鴻溝。它能有效利用高質量的 AgiBot World 數據集以及互聯網大規模異構視頻數據,增強策略的泛化能力。

展開來說,ViLLA 架構是由VLM(多模態大模型)+MoE(混合專家)組成。

其中 VLM 借助海量互聯網圖文數據獲得通用場景感知和語言理解能力,MoE 中的 Latent Planner(隱式規劃器)借助大量跨本體和人類操作數據獲得通用的動作理解能力,MoE 中的 Action Expert(動作專家)借助百萬真機數據獲得精細的動作執行能力。

推理時,VLM、Latent Planner 和 Action Expert三者協同工作

VLM 采用 InternVL-2B,接收多視角視覺圖片、力覺信號、語言輸入等多模態信息,進行通用的場景感知和指令理解;

Latent Planner 是 MoE 中的一組專家,基于 VLM 的中間層輸出預測 Latent Action Tokens 作為 CoP(Chain of Planning,規劃鏈),進行通用的動作理解和規劃;

Action Expert 是 MoE 中的另外一組專家,基于 VLM 的中間層輸出以及 Latent Action Tokens,生成最終的精細動作序列。

舉個例子,假如用戶給出機器人指令 " 掛衣服 ",模型就可以根據看到的畫面,理解這句話對應的任務要求。然后模型根據之前訓練時看過的掛衣服數據,設想這個過程應該包括哪些操作步驟,最后執行這一連串的步驟,完成整個任務的操作。

與此同時,通過 ViLLA 架構,智元團隊在五種不同復雜度任務上測試 GO-1。

結果顯示,相比已有的最優模型,GO-1 成功率大幅領先,平均成功率提高了 32% ( 46%->78% ) 。其中 "Pour Water"(倒水)、"Table Bussing"(清理桌面) 和 "Restock Beverage"(補充飲料) 任務表現尤為突出。

此外團隊還單獨驗證了 ViLLA 架構中 Latent Planner 的作用,可以看到增加 Latent Planner 可以提升 12% 的成功率 ( 66%->78% ) 。

還有一個彩蛋

GO-1 發布視頻的最后,相信大家也看到了一個彩蛋:

不知道內容是否和稚暉君的最新預告有關,明天我們繼續蹲蹲 ~

論文:

https://agibot-world.com/blog/agibot_go1.pdf

相關標簽
主站蜘蛛池模板: 亚洲欧美精品一区二区 | 女人张开腿让男人桶视频免费大全 | 男人的天堂久久香蕉国产 | 成年人视频网站免费 | 国产在线观看精品 | 精品久久久久中文字幕日本 | 一级毛片真人不卡免费播 | 一区在线免费 | 久久精品国产在爱久久 | 91久久精品视频 | 国产一区二区在线观看视频 | 一区二区三区欧美日韩国产 | 日本在线免费观看视频 | 日本a级毛片免费视频播放 日本a级三级三级三级久久 | 性欧美视频a毛片在线播放 性欧美一级 | 日韩欧美一区二区精品久久 | 777色狠狠一区二区三区 | 国产成人精品亚洲2020 | 成人入口 | 欧美综合在线视频 | 日韩久久免费视频 | 久久精品视频免费在线观看 | 国产精成人品 | 亚洲一区在线视频 | 国产精品欧美亚洲韩国日本 | 亚洲一级高清在线中文字幕 | 久草在在线视频免费 | 在线观看成年人免费视频 | 美女一级毛片视频 | 国产亚洲精品久久久久久久 | 欧美手机看片 | 久久综合一区二区三区 | 国产a网| 午夜日韩 | 草草国产成人免费视频 | 精品在线99 | 国产在线精品成人一区二区三区 | 手机亚洲第一页 | 成年片免费网址网站 | 亚洲欧美日韩国产精品26u | 欧美精品久久一区二区三区 |