3 月 12 日,北京人形機(jī)器人創(chuàng)新中心對外發(fā)布了首個 " 一腦多能 "、" 一腦多機(jī) " 的通用具身智能平臺 " 慧思開物 "。通過該平臺,這家公司試圖將人形機(jī)器人的通用化能力拆解成單個的技能模塊,通過組合這些技能模塊,讓通用人形機(jī)器人的開發(fā)門檻大幅降低,并且還能讓不同形態(tài)的機(jī)器人也能適配這些能力。
" 具身智能在‘智能化’方面仍處于初級階段,行業(yè)亟需一個具備多本體兼容性、多場景適應(yīng)性和強(qiáng)大泛化能力的通用智能平臺。為了替具身智能產(chǎn)業(yè)補(bǔ)上通用軟件系統(tǒng)這塊重要拼圖,創(chuàng)新中心研發(fā)了全球首個支持多本體多場景應(yīng)用的通用具身智能平臺‘慧思開物’。"
創(chuàng)新中心總經(jīng)理熊友軍表示,在 " 慧思開物 " 的支持下,優(yōu)必選在全球范圍內(nèi)首次把群腦網(wǎng)絡(luò)(BrainNet)用于人形機(jī)器人執(zhí)行整條產(chǎn)線的工業(yè)級任務(wù)。
AI 大模型 + 元技能庫,組建 " 大腦 " 與 " 小腦 "
具體而言," 慧思開物 " 由 AI 大模型驅(qū)動的任務(wù)規(guī)劃 " 大腦 " 以及數(shù)據(jù)驅(qū)動的端到端技能執(zhí)行具身 " 小腦 " 構(gòu)成。
其中," 大腦 " 具備自然交互、空間感知、意圖理解、分層規(guī)劃和錯誤反思等能力," 小腦 " 分為具身操作和具身運(yùn)控兩個子平臺:具身操作涵蓋元技能庫、泛化抓取、技能拆解和錯誤處理等功能,而具身運(yùn)控負(fù)責(zé)實(shí)現(xiàn)全身控制、雙臂協(xié)作、穩(wěn)定行走和移動導(dǎo)航等任務(wù)。
由具身 " 大腦 " 進(jìn)行任務(wù)規(guī)劃,再調(diào)用具身 " 小腦 " 技能庫執(zhí)行具體動作,并將執(zhí)行反饋傳遞給具身 " 大腦 ",形成任務(wù)閉環(huán)。
基于高效協(xié)同的具身 " 大腦 " 與具身 " 小腦 " 架構(gòu)," 慧思開物 " 可以精準(zhǔn)解析自然語言交互指令,通過多模態(tài)信息融合與上下文理解,將復(fù)雜任務(wù)分解為可執(zhí)行的子任務(wù)序列,并在任務(wù)執(zhí)行過程中實(shí)時監(jiān)測狀態(tài),通過自適應(yīng)糾錯機(jī)制和動態(tài)路徑規(guī)劃,確保任務(wù)的高效推進(jìn)與準(zhǔn)確完成。
同時," 慧思開物 " 內(nèi)置多場景適配引擎,支持從工業(yè)制造到家庭服務(wù)等多種場景,結(jié)合高效的資源調(diào)度與并行計算能力,能夠精準(zhǔn)滿足特定場景下的工作節(jié)拍與精度標(biāo)準(zhǔn),為機(jī)器人在復(fù)雜場景的應(yīng)用提供可靠的技術(shù)保障。
" 現(xiàn)在慧思開物的技能庫中已經(jīng)具備了 30 多種技能,可以覆蓋大部分的任務(wù)類型。" 創(chuàng)新中心 CTO 唐劍表示,整個端側(cè)運(yùn)動控制的輸出功率為 200 赫茲,可以讓機(jī)器人的整個運(yùn)動非常平滑。
而在人形機(jī)器人的數(shù)據(jù)訓(xùn)練方面,目前業(yè)界主流的訓(xùn)練方式有兩種。其一,是讓機(jī)器人在仿真環(huán)境中訓(xùn)練,然后將訓(xùn)練結(jié)果遷移到真實(shí)環(huán)境中;其二,則是讓機(jī)器人直接在真實(shí)環(huán)境中訓(xùn)練,根據(jù)真實(shí)環(huán)境的訓(xùn)練過程進(jìn)行 AI 的直接調(diào)教。
宇樹科技創(chuàng)始人曾向鈦媒體表示,隨著端到端的 AI 模型進(jìn)一步完善,仿真數(shù)據(jù)對于人形機(jī)器人將不再重要。而在與創(chuàng)新中心的交流中,唐劍則向鈦媒體表示,他們更傾向于虛實(shí)結(jié)合的數(shù)據(jù)訓(xùn)練方式。
根據(jù)創(chuàng)新中心提供的數(shù)據(jù),當(dāng)混合數(shù)據(jù)比例達(dá)到真機(jī)數(shù)據(jù):仿真數(shù)據(jù)為 100:400 時,機(jī)器人的執(zhí)行成功率接近 100%。
距離 " 下場干活 ",越來越近
基于虛實(shí)結(jié)合的訓(xùn)練模式和以技能庫為核心的運(yùn)動執(zhí)行方式," 慧思開物 " 此次也展示了工業(yè)分揀、積木搭建、桌面清理和物流打包四個場景的真機(jī)操作。通過語音交互、APP 直連等多種方式,用戶能夠與機(jī)器人自然交互,并通過模糊指令讓機(jī)器人完成操作任務(wù)。
在工業(yè)分揀任務(wù)中,通過 " 慧思開物 "APP 直連,UR-5e 機(jī)械臂能夠精準(zhǔn)解析語音指令,將復(fù)雜的技術(shù)能力(如推理、規(guī)劃、技能調(diào)用)封裝為簡單易用的操作流程,并通過雙臂協(xié)同的方式完成分揀操作,顯著降低了用戶使用門檻。
同時,平臺支持自定義模型和技能的快速添加,能夠靈活適配不同場景的應(yīng)用需求,為工業(yè)自動化領(lǐng)域提供便捷、高效的解決方案。
在積木搭建中," 慧思開物 " 通過大模型思維鏈能力,首次實(shí)現(xiàn)了復(fù)雜任務(wù)的智能化拆解與執(zhí)行。基于隨機(jī)搭建的積木樣例," 天工 " 利用視覺大模型(VLM)對樣例進(jìn)行拆解,精確規(guī)劃每一層的搭建順序,準(zhǔn)確拾取相應(yīng)積木,并按次序完成了 3 層積木的毫米級精準(zhǔn)搭建。
在物流打包場景,基于 " 慧思開物 " 平臺," 天工 PRO" 首次實(shí)現(xiàn)了全尺寸人形機(jī)器人物流打包全流程的自主作業(yè)。
通過上半身 29 個自由度的配合," 天工 PRO" 使用左右手分別拿起物品和掃碼槍,通過頭部相機(jī)確認(rèn)物品條形碼位置,雙手協(xié)同完成掃碼、裝箱、封箱及粘貼快遞標(biāo)簽等一系列操作。
" 目前,創(chuàng)新中心正在將這些能力逐步實(shí)現(xiàn)商業(yè)化落地。" 唐劍稱,現(xiàn)在主要探索的方向?yàn)榻逃蒲小⒔】叼B(yǎng)老、特種作業(yè)以及工業(yè)制造。(本文首發(fā)于鈦媒體 APP,作者 | 饒翔宇 編輯 | 鐘毅)