" 人類最后的考試 " 首次突破 30 分,還是咱國內團隊干的!
該測試集是出了名的超難,剛推出時無模型得分能超過 10 分。
直到最近,最高分也不過 26.9,由 Kimi-Research 和 Gemini Deep Research 并列取得。
現在,上海交大聯合深勢科技團隊突然發布了一項新研究,在 " 人類最后的考試 "(HLE,Humanity ’ s Last Exam)上一舉拿下 32.1 分,創下新紀錄。
劃重點:還直接把這套方案給開源了。
網友們紛紛感嘆現在 AI 競賽太激烈,一天一個樣。
R1 在函數調用上表現仍欠佳,而且在這項研究里甚至沒有針對這一點進行微調。但即便如此,只要給它搭配合適的框架,它在 HLE 這個難度很高的測試中就能拿到 32% 的成績。
雖然大家可能會習慣性地稱 R1 為 " 最佳基礎模型 ",但我覺得這其實是給 V4 打下了基礎。我敢肯定,V4 一出來就會自帶智能體功能。
具體來看 X-Master 和 X-Masters,這是該團隊 SciMaster 系列研究的第一部分,旨在開發通用科學 AI 智能體。
X-Master 是一個由開源模型(如 DeepSeek-R1)驅動的工具增強型推理智能體,其核心設計理念是模擬人類研究者的動態問題解決過程,在內部推理和外部工具使用之間流暢切換。
這一過程形成了一個共生循環:
工具輸出為智能體的推理提供關鍵反饋,幫助其完善推理;而更清晰的推理又能引導智能體更智能、更高效地使用工具。
實現這一過程的核心機制是將代碼概念化為一種交互語言。
當 X-Master 遇到無法通過內部推理解決的問題時,它會將精確的行動計劃編寫為代碼塊。這個 " 計劃 " 隨后會被執行,與任何所需資源進行接口連接,這些資源既包括 NumPy 和 SciPy 的強大數值計算能力,也包括團隊專門設計的用于實時網絡搜索和數據提取的工具包。
執行結果會被無縫吸收回智能體的上下文環境中,豐富其知識儲備,并為后續推理提供依據。
一旦通過字符串匹配檢測到這種模式,其中的代碼就會被提取出來,并在一個沙盒環境中執行,在該環境中可以訪問各種 Python 庫和工具。
執行結果隨后會被附加到模型的上下文中,并由特殊 token"<execution_results>" 和 "</execution_results>" 包裹。
之后,推理模型會繼續其思考過程,解讀執行結果并進一步推理,直到發起下一次交互或思考結束。
由于當前可用的強推理模型(如 DeepSeek-R1)本質上是非智能體的,并且往往在遵循指令方面能力有限,僅依靠傳統的提示工程不足以可靠地引導這些模型展現出預期的智能體行為。
因此,團隊還引入了一個簡單而有效的機制:初始推理引導。
該機制不會讓推理模型在收到用戶查詢后立即開始不受約束的思考過程,而是在模型的初始 "</think>"token 之后直接嵌入一系列引導文本。
這些引導文本特意從推理智能體自身的角度出發來設計,采用第一人稱表述,例如 " 我可以通過訪問外部環境有效回答這個查詢 "" 每當我確定需要與外部工具交互時,我會生成包裹在 <code> 和 </code>token 之間的 Python 代碼 "。
團隊表示,通過將這些精心設計的自我陳述拼接至模型的上下文中,可有效地引導模型 " 相信 " 自身具備增強的能力。
即便沒有針對智能體行為進行明確的微調,該模型也能夠自主生成和執行代碼,與環境交互,并最終發揮出強大的智能體功能。
接下來,為充分發揮 X-Master 的潛力,團隊設計 X-Masters,這是一種分散 - 堆疊式智能體工作流,通過編排多智能體認知過程,系統地增強推理的廣度和深度。
" 分散 " 階段旨在拓寬思路,多個求解器(Solver)智能體并行工作,生成多樣化的解決方案,同時批評者(Critic)智能體對這些方案可能存在的缺陷進行修正。
接著 " 堆疊 " 階段用于深化思考,重寫器(Rewriter)智能體將所有先前的輸出綜合成更優的解決方案,最后由選擇器(Selector)智能體裁定出最佳答案。
團隊表示,其分散 - 堆疊架構本質上是一種結構化探索和利用策略,與強化學習(RL)中的 "Rollouts" 概念有很強的相似性。
" 分散 " 階段類似于強化學習中 Rollouts 的探索原理,即模擬多條未來軌跡以評估不同行動的潛力。后續的 " 堆疊 " 階段類似于強化學習中 Rollouts 之后的聚合和 " 利用 " 步驟。
首個在 HLE 上得分超過 30% 的系統
實驗部分,團隊使用 DeepSeek-R1-0528 作為驅動智能體的推理模型,最大完成 token 數設置為 64k,temperature 為 0.6。
測試重點關注 HLE 的純文本子集,包含 2518 個樣本。評估運行工作流三次并報告平均分數,同時按照官方設置,使用 o3-mini 作為評判模型。
基線模型在 HLE 上的結果均來自現有的排行榜。
主要結果顯示,X-Masters 取得了 32.1% 的最高分,超過了所有現有智能體和模型,這也是首個在 HLE 上得分超過 30% 的系統。
跨不同類別的性能顯示,與 DeepSeek-R1-0528 相比,X-Masters 在所有類別中都顯示出顯著改善:
工具增強推理(求解器)使基線準確率提高了 3.4%,迭代優化(批評者和重寫器)又增加了 9.5%,最終選擇(選擇器)則實現了 32.1% 的紀錄成績。
近期研究成果,如 Biomni 和 STELLA,通過利用配備大量專業工具的大語言模型智能體,在應對生物學難題方面取得了一定進展。
而 X-Masters,在 HLE 的生物學 / 醫學類別中,表現優于現有系統,Biomni 的正確率是 17.3%,STELLA 大概 26%,而 X-Masters 達到了 27.6%。
并且 Biomni 和 STELLA 是從生物學 / 醫學類題目里挑了一部分來測試的,而 X-Masters 是考了這一類里所有 222 道純文字題,說明它在復雜生物醫學問題上的能力確實突出。
獨立的 X-Master 達到了 62.1% 的準確率,借助智能體工作流,X-Masters 取得了 67.4% 的 SOTA 成績,體現了分散探索和堆疊選擇的有效性。
與整合了 500 多種專家工具的多智能體系統 OriGene 相比,X-Master 僅使用兩種網絡工具(網頁搜索和網頁解析),卻獲得了更高的準確率,進一步印證了 X-Master 工具增強推理過程的高效性,即通過廣泛探索和堆疊選擇,它能夠有效解決復雜的生物學任務。
" 人類最后的考試 " 由 AI 安全中心和 Scale AI 發起,今年年初發布。剛發布時,包括 o1 在內,沒有一個模型得分超過 10%,被稱作是史上最難大模型測試集。
團隊收集到的題目需要經歷大模型和人工的雙重審查。不僅要達到研究生難度,而且還要確保不能被檢索到。當然題目還應當有明確的答案和評判方式,證明等開放式問題不會入選。
最終入圍的題目有 3000 多道。
入選的問題涵蓋了數理化、生物醫藥、工程和社會科學等多種學科,按細分學科來算則多達 100 余個。按大類來分,可分為八大類,其中占比最多的是數學(42%),然后是物理和生物醫藥(均為 11%)。
其中有些題目,還會考察模型的視覺能力,比如解讀這種上古文字(翻譯由 GPT-4o 生成)。
共同一作 Jingyi Chai、Shuo Tang、Rui Ye、Yuwen Du 全部來自上海交通大學人工智能研究院,上海交大陳思衡副教授指導。
深勢科技方面,創始人兼首席科學家張林峰親自署名。
GitHub 鏈接:https://github.com/sjtu-sai-agents/X-Master
參考鏈接:https://x.com/gm8xx8/status/1942486326726611421
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
專屬 AI 產品從業者的實名社群,只聊 AI 產品最落地的真問題 掃碼添加小助手,發送「姓名 + 公司 + 職位」申請入群~
進群后,你將直接獲得:
最新最專業的 AI 產品信息及分析
不定期發放的熱門產品內測碼
內部專屬內容與專業討論
點亮星標
科技前沿進展每日見