文 | AlphaEngineer
就在幾天前,馬斯克的 xAI 正式發布 Grok 4 大模型,號稱世界最強 AI。
我們團隊這幾天仔細研究了 Grok 4 相關的研究資料,有一些新發現,對未來 AI 產業趨勢及算力展望具有一定價值,遂整理成此文,用一篇文章的篇幅給大家介紹清楚 Grok 4 的發展脈絡。
核心要點:
Grok 4 的核心創新是在訓練階段引入多智能協作,即 " 多智能體內生化 "
OpenAI o1 實現了 " 思維鏈內生化 ";Gemini 實現了 " 多模態內生化 ";Grok 4 則是率先走出了 " 多智能體內生化 " 的一步,將進一步推高基座模型的性能上限,Agent 走向 2.0 時代
預訓練、后訓練、測試時均存在 Scaling Law。過去兩年以預訓練為主,今年開始后訓練、測試時推理需求快速增長,新一代大模型軍備競賽已啟動,算力需求持續指數級增長
Grok 4 在各大 Benchmark 表現出眾,但 Benchmark 測試污染嚴重,結果僅供參考,經實測發現 Grok 4 現階段編程能力較弱,未來將單獨推出 Coding 版本模型
下面我們正式開始。
(1)大力出奇跡,性能登頂各大 Benchmark
Grok 4 是在 xAI 自研的 Colossus 超算上訓練而成的,其訓練規模遠超前代模型,計算資源投入為 Grok-2 的 100 倍、Grok-3 的 10 倍,實現了推理性能、多模態能力和上下文處理能力的躍升。
Grok 4 擁有兩個版本:Grok 4(月費 30 美金)、Grok 4 Heavy(月費 300 美金,是的你沒看錯,300 美金!)。其中 Grok 4 是單 Agent 版本,而 Heavy 是多 Agent 協作版本,能夠同時啟動多個 Agent 并行工作,并最后整合結果。
經過實測,Grok 4 在多個 Benchmark 上均取得了優秀的成績。在 GPQA、AIME25、LCB(Jan-May)、HMMT25、USAMO25 等多項測評中,Grok 4 都超越了 o3、Gemini 2.5 Pro、Claude 4 Opus 等模型。
(2)HLE:人類最后的考試
隨著大模型能力的提升,許多最新模型能夠在現有 Benchmark 表現出極高的準確率,導致這些基準失去了分辨模型智能水平的能力。
因此,Center for AI Safety 和 Scale AI 在 25 年初提出了 HLE,即 " 人類最后的考試 ",旨在成為最后一個廣泛覆蓋學術能力的封閉式基準測試,專注于評估模型在人類知識前沿的表現。
有趣的是,大模型在給出錯誤回答的時候,往往表現出極高的置信度,這說明了大模型在處理復雜問題上的短板。
(3)Grok 4 的核心創新:多智能體內生化
Grok 4 Heavy 的核心創新在于訓練階段即引入多智能體協作,我們將其稱為 " 多智能體內生化 "。
何謂 " 內生化 "?我們來回顧一下過去 3 年大模型的發展歷史,你一定會一目了然。
還記得在 22 年風靡一時的 CoT 思維鏈嗎?當時人們為了讓大模型達到更好的回答效果,需要引入一些提示詞來誘發大模型進行深度思考,比如 "Let's think step by step"。
當時,CoT 能力屬于 Prompt 工程,是獨立于大模型能力之外的一種提示詞技巧。
然后在 24 年 9 月,OpenAI 推出的 o1 模型首次明確將深度思考能力 " 內化 " 到大模型中,確立了從 Scaling Training 到 Scaling Inference 的訓練新范式。
隨后 25 年 2 月的 DeepSeek 進一步驗證了將 "CoT 能力內化 " 確實能夠大幅提升大模型的推理性能。
回顧歷史后,我們能清晰地發現大模型發展的一條主線:大模型逐漸把 Prompt 工程、深度思考等能力納入到訓練過程中,實現能力內生化。
好比兩個學生,其中一個拿著參考書進行開卷考試,另一個真正學習并掌握了知識(內生化)。相比之下,后者往往能考出高分并且發揮更穩定。
融會貫通一定是優于刻板記憶和機械調用的。
Grok 4 這次的最大突破,在于將 Agent 能力也進行了內生化,融入到訓練過程中。
Grok 4 在訓練中融合了 Agent 調用及實時搜索等能力,將多個 Agent 之間的 debate 和 self-check 變成了大模型的內生能力。
今年 5 月的一篇論文詳細闡述了從 AI Agent 到 Agentic AI 的發展趨勢,強調從單一任務的執行邁向多代理協作的新范式。
在 OpenAI o1 出現之前,人們為了激發大模型的深度思考能力,往往需要學習大量提示詞工程技巧,但現在這些技巧已經不再重要。
在 Grok 4 Heavy 出現之前,人們會通過 Manus 等 Agent 工具讓大模型處理復雜任務。當 Agent 能力內生化的方向得到確立,越來越多的 AI 大廠將加入其中,競爭會愈發激烈。
未來通用型 Agent 產品需要有新的定位,把重心聚焦于工具鏈的完備設計、業務知識的注入、記憶層的輔助等,基于更加聰明的內核,解決更多復雜的任務。
其實除了 "Agent 能力內生化 " 之外,大模型發展還有一條主線,即:多模態內生化。通俗點來講,就是未來大模型應該能夠輸入任何模態的數據,也能夠輸出任何模態的數據。
大模型的 I/O 不應該只能是文本或圖片,也應該包含視頻和音頻。這在業界被稱為 Omni Model,算是大家公認的目標。
值得注意的是,這里 " 內生化 " 和大家平時體驗到的接收語音輸入的大模型有著本質區別。多模態內生化指的是大模型能夠原生的理解圖片、音頻、視頻,而非先轉碼成文字之后再進行理解。
截至目前,OpenAI 的所有模型尚不支持視頻模態輸入,而 Google Gemini 目前已經能夠支持視頻模態的輸入和輸出,畢竟 Google 旗下的 Youtube 擁有世界上最大的視頻資源庫,大家能夠從最近推出的 Veo 3 的驚艷效果上具象化的感受到這個巨大的競爭優勢。
(5)AI Coding 能力的認知分歧,以及 Base44 帶來的啟發
Grok 4 上線后,經歷了全球網友的檢閱,實測反饋分歧較大,和 xAI 官方公布的跑分結果有著一定出入。
其實這點是容易理解的,現在主流 Benchmark 測評污染太嚴重。只要一個測評的問題集流傳到互聯網上,就有可能被加入到大模型的訓練集中,導致測評誤差。
以前研究員可以通過控制大模型訓練集的數據范圍來解決測試集污染的問題,但這次 Grok 4 把實時搜索和 Agent 能力都內化到大模型中去了,數據污染的邊界無法得到有效的人為控制,沒有人能夠保證 Benchmark 的關鍵語料是否漏進訓練數據中。
所以 Benchmark 看看就好,實際還是得看海量用戶的實測體驗。
根據大家的反饋,Grok 4 在代碼生成能力上目前還有所不足。Grok 4 生成的代碼往往存在依賴庫丟失、界面 UI 粗糙等問題。
在使用 Grok 4 編寫游戲時,經常把最重要的 pygame 庫都給丟失了,這也是大家詬病 Grok 4 的核心原因之一。
馬斯克顯然也意識到了目前模型的短板,因此放出預期,在未來幾個月內將會發布 coding 模型,值得期待。
人們心目中一個強大的 coding model 往往是那種能夠刷榜 LeetCode,精通各種算法的奧賽型選手。
但其實落地到商業場景,人們真正需要的 coding model 其實是一個能夠整合各種 Github repo 資源,構建項目級應用的實戰派選手。
這其實也是最近炙手可熱的 Base44 獲得成功的主要原因之一。
Base44 是一家專注于 Vibe Coding(氛圍編程)的 AI 初創企業,由以色列程序員 Shlomo 于 2024 年 12 月創立,僅運營 6 個月即以 8000 萬美元(約 5.7 億元人民幣)被以色列軟件巨頭 Wix 收購,成為該領域首筆并購案例。
相比其他 AI Coding 產品而言,Base44 更加專注于通過自然語言交互生成完整軟件系統,覆蓋數據庫搭建、身份驗證、數據分析等功能。
Base44 的目標用戶主要是無編程經驗的普通開發者,他們能夠使用 Base44 一站式創建完整的項目,這是廣大用戶最樸素的需求。
隨著 Grok 4 將更多實用的 Agent 能力內生化到模型中,相信未來 AI 能夠真正實現這個效果,媲美全棧高級程序員。
(6)Grok 4 之后的全球算力需求展望
今年年初以來,海外大模型發展提速,你方唱罷我登場。
海外 AI 基礎模型持續提速的根源,在于算力資源的持續投入。據稱 xAI 每個月要消耗 10 億美元的資金,預估 2025 年全年總支出將高達 130 億美金,這一數字遠超行業平均水平。
Grok4 是在 xAI 自建的 Colossus 超算中心上訓練而成的,依托 20 萬張 GPU 集群,其計算資源投入是 Grok2 的 100 倍、Grok3 的 10 倍,上下文窗口擴展到了 25.6 萬 tokens,遠超 Claude 3 Opus。
Grok4 將 Colossus 超算的 80% 算力投入推理訓練中,這也是直接推動其在 HLE 基準測試中達到 44.4% 的核心原因。
預訓練、后訓練、測試時均存在 Scaling Law。過去兩年以預訓練為主,今年開始后訓練、測試時推理需求快速增長。
多 Agent 內生化開了算力需求增長的新維度,在可見的未來將會給全球算力需求帶來幾何級增長。
(7)結語:Agent 內生化趨勢明確,新一代 AI 訓練軍備競賽已啟動
隨著 Grok 4 打響了 Agent 能力內生化的第一槍,各個 AI 大廠大概率會跟進,訓練端仍然有較大的 Scaling 空間,新一代大模型訓練的軍備競賽已然開始。
讓我們一起拭目以待!