機(jī)器人行業(yè)的 DeepSeek-R1,被智元機(jī)器人開發(fā)出來了?
華為天才少年計(jì)劃的經(jīng)歷,帶給了「稚暉君」彭志輝極高人氣,也讓他創(chuàng)辦的智元機(jī)器人獲得了行業(yè)頂級流量。但若技術(shù)實(shí)力與流量不匹配,最終這些流量難免化為輿論攻擊——就像日前涉嫌營銷用力過猛的 Manus 一樣。
好在,智元機(jī)器人一次又一次展現(xiàn)出了自己的實(shí)力,日前其推出全球首個通用具身智能基座大模型智元啟元大模型(Genie Operator-1,以下簡稱:GO-1),并計(jì)劃第一季度末對核心用戶開源,允許用戶將其部署到自家機(jī)器人上。
在 DeepSeek-R1 面世之后,全球多個 AI 公司將旗下的大模型開源,并承認(rèn)開源方能加速推動 AI 行業(yè)進(jìn)步。GO-1 模型現(xiàn)階段開源程度不如采用 MIT 開源協(xié)議的 DeepSeek-R1,但此前智元機(jī)器人已將用于訓(xùn)練 GO-1 模型的 AgiBot World 數(shù)據(jù)集、工具鏈、預(yù)訓(xùn)練模型統(tǒng)統(tǒng)開源,未來很可能將 GO-1 核心代碼和模型開源。
模型開源智元機(jī)器人方能有機(jī)會成為機(jī)器人行業(yè)的 DeepSeek,但開源卻不代表一定能夠獲得媲美 DeepSeek 的地位,一切終究要實(shí)力說話。
智元機(jī)器人開發(fā)的 GO-1 模型基于 Vision-Language-Latent-Action(ViLLA)架構(gòu),由多模態(tài)大模型(VLM)和混合專家(MoE)組合而成。VLM 為具身基座大模型的主干網(wǎng)絡(luò),繼承了上海人工智能實(shí)驗(yàn)室開發(fā)的開源大模型 InternVL-2B 的權(quán)重,可實(shí)現(xiàn)場景感知和語言理解,并利用互聯(lián)網(wǎng)上的視頻和圖片數(shù)據(jù)訓(xùn)練自身。該模型還能融合多視角視覺、力覺信號,賦予自身通用場景理解能力,從而實(shí)現(xiàn)更多復(fù)雜的操作。
MoE 則分為隱式規(guī)劃器和動作專家兩部分,隱式規(guī)劃器可利用互聯(lián)網(wǎng)上的人類或跨本體視頻,基于 VLM 的中間層輸出潛在動作令牌(Latent Action Tokens),形成規(guī)劃鏈(Chain of Planning),實(shí)現(xiàn)通用的動作理解和規(guī)劃。動作專家可借助仿真或真機(jī)數(shù)據(jù),優(yōu)化潛在動作令牌的生成和輸出效率,并獲得高精度動作的執(zhí)行能力。
基于 ViLLA 架構(gòu),GO-1 模型構(gòu)建了數(shù)字金字塔,最基礎(chǔ)的互聯(lián)網(wǎng)純文本、圖文數(shù)據(jù),可幫助機(jī)器人理解通用知識和場景;第二層的大規(guī)模人類或跨本體視頻,可幫助機(jī)器人學(xué)習(xí)人類或其他本體的動作操作模式;更高一層的仿真數(shù)據(jù)則能夠增強(qiáng)機(jī)器人的泛用性;最后由真機(jī)示教數(shù)據(jù)幫助機(jī)器人訓(xùn)練精準(zhǔn)動作執(zhí)行能力。
在模型架構(gòu)之外,用于訓(xùn)練模型的數(shù)據(jù)同樣重要。最新版的 AgiBot World 包含 1001552 條軌跡,覆蓋了家庭、零售、工業(yè)、餐廳、辦公五大關(guān)鍵場景,是目前全球最大的機(jī)器人真機(jī)示教數(shù)據(jù)集。
不同于普通軌跡不超過 5 秒的時間,AgiBot World 中的軌跡跨度可達(dá) 30 秒左右,部分軌跡甚至長達(dá) 2 分鐘。智元機(jī)器人官方數(shù)據(jù)顯示,AgiBot World 所采用的預(yù)訓(xùn)練模式,相較谷歌 Open X-Embodiment 訓(xùn)練策略平均性能提升 30%,相較現(xiàn)有機(jī)器人大模型完成復(fù)雜操作的平均成功率提高了 32%。
NVIDIA CEO 黃仁勛曾預(yù)言,兩三年內(nèi)機(jī)器人行業(yè)將迎來重大突破,未來會像汽車一樣普及。在機(jī)器人技術(shù)從生澀走向成熟的今天,智元機(jī)器人也在不斷推動產(chǎn)品量產(chǎn),日前 1000 臺機(jī)器人量產(chǎn)下線,已面向全球開源的靈犀 X1 也完成了首批交付,靈犀 X2 于 3 月 11 日在上海發(fā)布,功能更加強(qiáng)大。在未來機(jī)器人行業(yè)的競爭中,GO-1 模型或?qū)⒊蔀橹窃獧C(jī)器人的核心競爭力之一。
阿加犀智能科技有限公司 CEO 孫曉剛表示,按照目前機(jī)器人行業(yè)的發(fā)展進(jìn)程,三五年內(nèi)機(jī)器人的價格降到 5 萬元以內(nèi)沒有問題。
5 萬元以內(nèi)的機(jī)器人,已處于普通消費(fèi)者可以接受的范圍,但購買的前提是其功能足夠強(qiáng)大,可以幫助我們處理一些生活瑣事。決定機(jī)器人能力的關(guān)鍵,在于硬件和智能兩方面,GO-1 模型要做的就是提高機(jī)器人的智能程度。
ViLLA 架構(gòu)賦予了 GO-1 模型通過人類視頻學(xué)習(xí)的能力,互聯(lián)網(wǎng)上龐大的視頻資源,都將成為機(jī)器人進(jìn)化的「養(yǎng)料」,讓機(jī)器人能夠更高效地完成復(fù)雜操作。
其次,小樣本快速泛化特性令 GO-1 模型可以在數(shù)據(jù)量極少,甚至零樣本的情況下,泛化到新場景,無需龐大的數(shù)據(jù),從而大幅減少訓(xùn)練成本,降低機(jī)器人行業(yè)的門檻。
最關(guān)鍵的是,GO-1 屬于「一腦多形」通用機(jī)器人模型,能夠在兩足、輪足等不同類型機(jī)器人之間遷移和快速適配。不同類型的機(jī)器人可能需要完全不同的 AI 大模型,用于適配機(jī)器人硬件的工作模式,是開發(fā)機(jī)器人企業(yè)的難點(diǎn)之一。GO-1 模型打破常規(guī),可以輕松適配各種機(jī)器人,無疑能夠進(jìn)一步降低機(jī)器人模型的開發(fā)、適配成本。
盡管 GO-1 模型僅在本月底面向核心用戶開源,但從功能特性不難看出,GO-1 已經(jīng)把「我會開源」寫在了臉上,整個大模型幾乎完全面向提升能力、降低成本兩方面。小樣本快速泛化和一腦多形能力,令實(shí)力底蘊(yùn)不足的機(jī)器人企業(yè),也能借助 GO-1 模型快速開發(fā)出適合機(jī)器人產(chǎn)品的 AI 系統(tǒng),并借助國內(nèi)日漸成熟的機(jī)器人供應(yīng)鏈實(shí)現(xiàn)產(chǎn)品量產(chǎn)。
與新能源汽車行業(yè)類似,機(jī)器人時代的到來是一次機(jī)遇,比亞迪、小鵬、賽力斯等車企已紛紛入場,還有許多知名度不高的小企業(yè)加入,究竟哪些企業(yè)能夠成長為頭部品牌,暫時無法確定。赫赫有名的宇樹科技有望成為機(jī)器人行業(yè)的比亞迪,開發(fā) GO-1 模型的智元機(jī)器人則擁有成為「蔚小理」的機(jī)會。
同樣的,機(jī)器人行業(yè)的發(fā)展之路,也會有許多企業(yè)掉隊(duì)。不同的是,新能源汽車行業(yè)工業(yè)實(shí)力的重要性大于 AI 能力,而機(jī)器人領(lǐng)域 AI 能力的重要性至少持平工業(yè)實(shí)力,甚至更勝一籌。而且在機(jī)器人行業(yè)發(fā)展過程中,供應(yīng)鏈將不斷整合,硬件會收斂,機(jī)器人最終比拼的是智能化。
智元機(jī)器人推出的遠(yuǎn)征、靈犀、絕塵等多品類機(jī)器人,無法發(fā)揮 GO-1 模型的全部價值,將其開源并允許其他企業(yè)修改、部署、商用,方能最大限度挖掘 GO-1 模型的價值,并起到推動機(jī)器人行業(yè)發(fā)展的作用。
向核心用戶開源模型只是開始,未來 GO-1 模型很可能面向全行業(yè)開源,增強(qiáng)其他機(jī)器人企業(yè)的實(shí)力。開源后的 GO-1 模型,才能獲得 DeepSeek-R1 的地位,成為行業(yè)發(fā)展的推動者。智元機(jī)器人自身也是硬件產(chǎn)品開發(fā)公司,借助 GO-1 的聲望,或?qū)⑦M(jìn)一步打響知名度,并提高產(chǎn)品銷量,而非如現(xiàn)在一般,提到智元機(jī)器人和彭志輝,大家首先想到的是華為天才少年計(jì)劃出身的身份。