文 | 大模型之家
北京時間 7 月 18 日凌晨,OpenAI 如約發布了其最新力作—— ChatGPT Agent。
根據 CEO Sam Altman 和四位 OpenAI 研究員介紹,ChatGPT Agent 是一個具備自主執行復雜任務能力的 AI Agent,它不再僅僅 " 對話 ",而是可以打開虛擬機,完成搜索、篩選、判斷、執行等一整套流程,最終輸出可交付的結果。
ChatGPT Agent 的定位非常 " 簡單直接 ":一個擁有終端、圖形瀏覽器、文本瀏覽器的多工具整合智能體系統。功能上,幾乎等于一個受控的遠程虛擬操作系統。
值得注意的是,ChatGPT Agent 可以說是 OpenAI 自今年以來推出產品的一次階段性整合與釋放:Operator 和 Deep Research,一個偏執行,一個偏思考,如今徹底融合。
AI 真正開始 " 動手 ":ChatGPT Agent 的能力邊界
與如今大火的 " 智能體 " 賽道的產品類似,ChatGPT Agent 的最大變化,是讓 AI 真正獲得了對數字世界的 " 動手 " 能力。Agent 模式下,用戶不再是通過提示詞一步步引導 ChatGPT 生成答案,而是描述一個需求后,模型啟動虛擬機,自主規劃任務、調度工具、完成執行。
在演示中,OpenAI 展現了其三大基礎能力組件:文本瀏覽器、可視化瀏覽器和終端。
這些能力讓 Agent 不僅適用于內容生成,更適用于事務型任務處理,意味著它從 " 信息輔助 " 跨越到 " 決策 + 執行 "。在辦公場景中,Agent 可以完成會議安排、報告撰寫、差旅預訂等一系列中層管理事務。在生活場景中,它能規劃婚禮、生成資料、預約專家等個性化需求。用一個略顯理想主義但已逐步接近現實的說法:ChatGPT Agent,是人人都可以擁有的 " 高效執行助理 "。
基準測試成績:Agent 能力更接近人類水平
與以往 OpenAI 擅長的語言能力不同,Agent 的測試指標更偏向執行能力和任務完成度。在這方面,ChatGPT Agent 通過了多個廣受認可的專業評測,其結果呈現出一次系統性的躍遷。
尤其值得一提的是 DSBench 測試,它用于衡量數據分析與建模任務的能力。Agent 在這一測試中超過了所有此前的 SOTA(state-of-the-art)模型,明確表明其在面對現實數據分析任務中,不僅可用,而且強大。
這些數字背后,是 OpenAI 在工具調度、任務分解、推理執行上的系統性優化。可以說,ChatGPT Agent 已不再局限于 " 語言智能 ",而是進入 " 操作智能 " 的新階段。
Operator 和 Deep Research 子產品的融合
在大模型之家看來,ChatGPT Agent 并不是從零起步的 " 創新 ":其核心其實是 Operator 和 Deep Research 兩個子產品的融合。
Operator 是今年初推出的圖形界面 Agent 工具,支持鼠標模擬點擊、滾動等界面操作;Deep Research 則是一個偏內容分析和信息整合的工具,擅長處理復雜文字材料并輸出結構化結果。兩者原本分別服務不同需求,但用戶使用行為暴露出兩者之間的邊界并不清晰。
許多 Operator 用戶在提示詞中描述的任務,其實更像是深度調研;而 Deep Research 的高階用戶,又頻繁表達對圖形交互的訴求。
這使 OpenAI 做出順理成章的決策:合并兩個工具,并在一個統一的模型訓練框架下,用強化學習方法教會模型如何調度工具。具體方法是模型從 " 笨拙地 " 亂用工具開始,通過獎勵高效行為逐漸掌握何時使用哪個工具、在哪一步執行操作。
這個過程類似于 AI 界所熟知的 Curriculum Learning(課程學習)策略,從簡入繁,在逐步暴露復雜問題之前先引導其掌握基礎邏輯。強化學習在這里的作用不僅僅是讓模型 " 能用 " 工具,而是 " 用得巧 ",用得靈活。
這種組合式的工程化思維并不新鮮,但放在 OpenAI 此時此刻的體系中,它是一種極高效的資源整合,既降低開發風險,又釋放實際能力,是對 "AI 工具生態 " 合理性的回應。
Agent 不是終點,而是通往應用未來的橋梁
ChatGPT Agent 的誕生,不只是對工具融合的一次技術實現,更是對 " 大模型如何走進現實 " 的階段性回答。從 ChatGPT 的出現開始,逐漸理解語言模型的強大;從 GPT-4o 開始看見多模態推理的邊界;而現在,Agent 將 " 思考 " 與 " 動手 " 統一,標志著 AI 真正有可能完成從 " 助手 " 向 " 代理人 " 角色的轉變。
從開放的任務執行結構來看,Agent 模式更像是未來操作系統的一種雛形:具備動態調度資源、主動規劃流程、與人類深度交互的能力。它并不重定義 AI 模型本身,而是重塑了人與 AI 協作的界面與方法。
OpenAI 將這套能力下放到 Plus、Team 乃至企業級服務中,也意味著 Agent 從不再是 " 高級用戶 " 的特權,同時借助 Agent 熱潮吸引更多用戶,擴大自己在大模型賽道的話語權。
未來,ChatGPT Agent 是否能像操作系統那樣擁有開放插件生態?Agent 是否能承接 SaaS 級別復雜度的任務?企業的專屬工作流是否可以嵌入 Agent?這些問題都已開始具象化地浮出水面。