文 | AlphaEngineer,作者 | 費斌杰(北京市青聯委員 熵簡科技 CEO)
25 年開年以來,AI 發展如火如荼,DeepSeek R1、OpenAI CUA、Manus 等重要創新層出不窮,眼花繚亂。
這里我將最近一個月以來的思考總結一下,對 25 年 AI 發展趨勢做幾點預判。
(1)Manus:Agent 元年的一次搶跑
Manus 推出之后,我們第一時間拿到了體驗賬號,進行了充分的體驗測評。
先說結論:雖然 Manus 目前還有種種不足,但它的產品設計思路創意滿滿,值得我們給予充分的肯定。
Manus 突破了傳統 AI 助手僅生成建議的局限,實現了從 " 需求輸入 " 到 " 成果交付 " 的端到端閉環。
Manus 提出 "Less Structure, More Intelligence" 的交互理念,通過無代碼化的自然語言接口降低用戶使用門檻。
Manus 在 MultiAgent 的道路上提供了一種非常有趣的思路,但現在依然存在一些顯而易見的不足之處。
首先是 " 幻覺累加 " 的問題。
Agent 的本質是多次大模型問答的串并聯。如果單次大模型問答的準確率是 90%,串聯 10 次的話,最終 Agent 回答準確的概率是 0.9^10,只有 1/3 左右了。
在下面的案例中,Manus 的任務是針對某上市公司進行財務數據分析。Manus 很聰明的 import 了 data_api 模塊,準備從雅虎提供的接口中調取財務數據。
但是在 process_financial_data 函數中,manus 竟然把 revenue、gross_profit 等數據直接 " 硬編碼 " 到了代碼中,讓人猝不及防。而且經過驗證,這里的數據有部分是錯誤的。
如果原始數據出錯了,那么后續無論分析得多么深入、圖表做得多么 fancy 都失去了意義。
下面這個例子中,Manus 的任務是寫一篇關于 " 小米 Su7" 的市場分析報告 PPT。
Manus 完美的拆分了任務,并且檢索了大量新聞,但是最后它無法生成一份 PPT,因為它無法調用 Office 軟件。
目前 Manus 輸出的內容形式多為純文本或者網頁,還無法和人類工作流進行完美融合。
互聯網上有很多優質信息是存放在 " 圍欄 " 中的。
比如當我們讓 Manus 去分析比較市面上所有 AI 智能眼鏡的性價比時,它聰明的找到了對應商品的淘寶網頁。
但是當 Manus 想要打開具體產品頁面獲取價格性能等詳細信息時,淘寶判定它為機器人,并拒絕了 Manus 的訪問。
但是 Manus 的訪問被 CrunchBase 判定為機器人,隨后被無情的拒絕了。
互聯網看似公開透明,實則存在大量類似小院高墻的情況,優質信息往往就存放在這些高墻之內,Manus 無法直接獲取,這無疑阻礙了 Manus 的工作效果。
在 Manus 占據大家視野的同時,海外 AI 大廠究竟做了哪些技術儲備呢?
(3)OpenAI CUA:一個會自主操作電腦的 Agent
在今年的 1 月底,OpenAI 發布了由其新模型 CUA(Computer-Using Agent)驅動的 AI 智能體 Operator。
CUA 模型融合了 GPT-4o 的視覺能力和通過強化學習實現的高級推理能力,能夠將任務分解為多步驟計劃,并在遇到挑戰時進行在我調整和糾正。
簡而言之,CUA 就是一個會操作電腦的 Agent,它的運作原理非常直白且簡潔,如下圖所示。
CUA 會同時處理這兩種信息,并且生成一系列動作指令,比如 " 點擊屏幕上坐標為 ( 300,200 ) 的點,并且輸入 XXX,按回車 "。
電腦接受到指令并完成操作后,會將新的屏幕截圖與新的任務指令返回給 CUA,如此循環往復,直到獲得最終答案。
那么 CUA 目前操作電腦的能力達到了怎樣的水平呢?
根據 OpenAI 的官方測評,CUA 在操作電腦和操作瀏覽器這兩個場景上,相比上一代 SOTA 都有了巨大的性能提升。
但是相比人類而言,依然有著較大的差距。換句話來說,目前頂級的 Agent 依然沒有辦法像一個成年人一樣正確的操作電腦,但我相信這個現狀在今年內就會發生質變。
剛才在分析 Manus 的缺陷時,提到了 " 工具不足 " 的問題。
Anthropic 顯然也意識到了這個問題,并在去年年底推出了 MCP 來從根源上解決這個問題。
MCP 的全稱是 Model Context Protocol,它定義了應用程序和 AI 模型之間交換上下文信息的方式,這使得開發者能夠以一致的方式將各種數據源、工具和功能連接到 AI 模型。
MCP 之于 AI,有點類似于 TCP/IP 之于互聯網。
當前越來越多的工具及服務開始接入 MCP,呈現愈演愈烈之勢,包括 Google Maps、PGSQL、ClickHouse(OLAP 數據庫)、Atlassian、Stripe 等等。
這里我結合最近幾個月以來的觀察和思考,總結一下 25 年 AI 發展的幾點重要趨勢。
第一,預訓練即將終結,后訓練成為重點。
這其實已經是行業共識。去年年底時,Ilya 在 NeurIPS 大會上提到一個重要觀點:數據是 AI 時代的化石燃料,因為我們人類只有一個互聯網。
與此同時,在今年 DeepSeek R1 的論文中,提到了后訓練將成為大模型訓練管線中的重要組成部分。
DeepSeek R1 帶來最重要的啟發是:純粹的 RL 可能是通向 AGI 的正確路徑。
隨著 TTS 的增加,大模型會自我涌現出復雜的推理行為,而無需刻意引導。
如下邊右圖所示,橫軸是大模型 RL 的迭代步數,縱軸是單次問答的 token 長度。我們可以看到,隨著大模型 RL 步數的增加,大模型會自主的從 " 快思考 " 變成 " 慢思考 ",從最開始每次回答 100 個 token,到最后每次回答接近 10000 個 token。
具體是哪些復雜行為的涌現呢?DeepSeek 也給出了答案,比如:self-verfication, reflection 等。
這個發現對于我們來說有著重要的啟發。未來監督學習在 AI 訓練中究竟應該扮演怎樣的角色?監督學習是否反而限制了 AI 解決問題的能力?
是否不應該讓 AI 通過模仿人類的思維方式來獲得智能,而是讓 AI 發展出更加原生的智能?
這些問題,都有待整個 AI 行業通過實踐來給出答案。
第三,MutiAgent 是確定性的大趨勢。
如果將 AI 和人腦進行類比的話,大模型就像是人腦中的 " 前額葉 "。
眾所周知,前額葉主要負責高級認知功能,比如注意力的分配、思考推理、決策等。
但是僅僅有前額葉,大腦是無法處理復雜任務的。我們需要有顳葉來進行聽覺信號的解析,需要頂葉進行閱讀和算術,需要小腦來進行運動協調,需要海馬體來進行記憶索引。
MultiAgent 的定義恰恰就是讓多個不同的模型之間互相協調,從單獨的 " 前額葉 " 走向 " 完整的大腦 ",從而處理更加復雜的現實任務。
在這個藍圖中,MCP 就起到了非常重要的作用:協調統一大模型與各工具之間的數據通信接口。
2025 年是 AI Agent 元年,Manus 的出現打響了第一炮。
無論是 OpenAI 的 CUA 還是 Anthropic 的 MCP 都指向了一個共同的未來,未來 2 年 AI 的發展速度將非常陡峭。
抓好扶手,未來已來!