亚洲美女一区二区三区-亚洲国产一区在线-久草资源在线-免费在线毛片-国产视频www-天天射天天干

關于ZAKER 合作
鈦媒體 13小時前

OpenAI 會殺死 Manus 們嗎?

文 | 山上,作者薛星星,編輯張文

和三月份發布文生圖更新一樣,OpenAI 又一次試圖提前結束 AI Agent 的創業競賽。

北京時間 7 月 18 日凌晨,OpenAI 發布 ChatGPT Agent。它可以根據用戶的指令,自動規劃執行步驟,調用多種工具,并完成從抓取數據到生成表格、規劃行程到預訂酒店等多環節任務。

OpenAI 推文截圖

這也是目前多數 AI Agent 創業項目正在嘗試的方向。4 個月前你在 Manus 那場號稱首個通用 AI Agent 宣傳片中看到了什么,ChatGPT Agent 就完成了什么。

OpenAI 創始人山姆 · 阿爾特曼(Sam Altman)說,這是他第一次 " 真正感受到 AGI(通用人工智能)"。OpenAI 的研究人員則表示,ChatGPT Agent 是目前為止最強的 AI Agent 模型。

——是的,OpenAI 將 ChatGPT Agent 稱為一個模型,而不是產品。與 Manus 等依賴上下文管理、工具鏈編排的系統不同,OpenAI 訓練了一個專用模型,能夠在單一系統中完成任務規劃、跨工具調用和文檔生成等復雜流程。該模型目前被歸入 o3 系列,但尚未被單獨命名。

AI 時代的創業者們面臨著比任何歷史時期都更快速的技術迭代,一次底層模型更新往往就能毀掉一個垂直領域的創新產品。

理想汽車創始人李想此前在朋友圈說,to C 層面,OpenAI 在內的掌握最強基座模型的企業,不會留下什么垂直應用的創業空間。" 軟件的本質是功能,需要場景化、垂直化。人工智能的本質是能力,能力強就可以吃掉一切,也是用戶最方便的。"

就連一直高喊 AI 應用創新的朱嘯虎也在社交媒體上表示,大模型會吃掉 90% 的 Agent。X 平臺上也有用戶發問,如果 OpenAI 后續開放 ChatGPT Agent 模型的 API,其他創業者該如何與其競爭?

"Listen-that's the sound of a great many startups evaporating into the void."(聽——那是無數初創公司悄然蒸發的聲音。 )

OpenAI 發布會視頻下的一條高贊評論寫道。

Manus 們選擇正面硬剛

至少在目前,Manus 們還沒有表現出任何退讓跡象。

OpenAI 發布會剛結束,Manus 就在 X 上轉發推文稱,"Welcome to the game." 同屬于華人 AI Agent 創業公司的 flowith 也轉發強調,他們早在一年前就推出了 AI Agent 產品。

作為過去半年最早對外喊出通用 AI Agent 口號的創業公司,Manus 的反應要比其他公司強烈得多。發布會結束僅 3 個小時,Manus 就一口氣對外放出了 10 條與 ChatGPT Agent 的對比測試,宣稱要和 OpenAI 正面較量。

這些對比內容部分來自 OpenAI 當日展示的演示片段,部分則來自用戶在社交平臺上的真實使用。涵蓋場景包括數據整理、路線規劃、在線購物、財務分析、餐廳預訂等,Manus 發出的測試結果幾乎全面占優——不僅響應更快,也更強調 " 任務完成度 ",如表格更整潔、圖示更豐富、PPT 更接近成品。

比如 OpenAI 演示的 " 計劃一次為期三天的棕櫚泉網球之旅 ",OpenAI 給出的是一張簡單的行程表,而 Manus 生成的則是一張帶有目的地風格設計的行程海報。

Manus 發布的測試對比

又如分析舊金山市過去四年的財務報告,OpenAI 輸出的是 Excel 文件,而 Manus 給出的是包含圖表與要點總結的完整演示文檔。"Manus 完成的是整個項目,而不僅僅是提供數據。"Manus 評價說。

另一家華人公司 Genspark 的反應同樣高調。創始人景鵬(Eric Jing)在 X 上寫道:" 我從未想過有一天——作為一家只有 24 人的小公司,我們竟然可以領先……領先于 OpenAI。" 他表示,用同樣的提示詞,Genspark 的響應時間更短、成本更低,生成結果的質量也 " 高出好幾倍 "。

7 月 19 日,Genspark 也在社交平臺上分享了 9 個與 ChatGPT Agent 的對比實例,顯示他們輸出的文檔數據維度更豐富,排版更加美觀。除了與 Manus 對比測試中類似的旅游行程制定、財務數據分析等案例外,他們還分享了一則視頻生成能力的對比,指出 ChatGPT Agent 未能完成任務。

Genspark 分享的視頻生成案例

社交媒體上用戶們的反饋也不如此前 OpenAI 更新文生圖功能那樣強烈。一些批評聲音指出 ChatGPT Agent 任務的完成度不高,任務生成速度也比較緩慢,部分復雜任務需要 20 分鐘乃至更長時間才能完成。

OpenAI 似乎也意識到當前的 ChatGPT Agent 的速度問題,他們拍攝的幾條宣傳視頻里,員工往往在下達指令后就合上筆記本,等到稍晚再返回查看結果。

" 即便耗時 15 分鐘或半個小時,相比你自己手動完成也已經是顯著的提速了。"OpenAI 的研究員 Isa Fulford 說。她表示,這是一種 " 可以在后臺發起任務,過一會兒再回來查看結果 " 的使用方式,而 OpenAI 的搜索團隊則更專注于低延遲場景。

OpenAI 或許更強調模型能夠持續推理和思考的時間,OpenAI 的研究員張熙堃說,ChatGPT Agent 在內部測試中的最長連續推理時間達到了 2 小時," 我們應該有一個排行榜來記錄模型能持續思考多久。"

針對外界詬病的生成文檔或 PPT 不夠美觀的問題,OpenAI 的研究員們在 X 上建議,先讓 ChatGPT Agent 把研究工作做完,再讓它輸出 PPT 文件。ChatGPT 生成的是標準 pptx 格式,用戶也可以在 PowerPoint 中統一套用想要的設計模板。

雖然 OpenAI 強調他們專門為 ChatGPT Agent 訓練了專用模型,但部分批評聲音亦指責它更像是將此前已經推出的 Operator(瀏覽器交互能力)與 Deep Research(深入研究能力)組合在一起的產物。Operator 可以支持 ChatGPT 通過瀏覽器與網站直接互動、閱讀并理解網頁內容,Deep Research 則擅長分析和總結信息。

事實上,ChatGPT Agent 目前團隊成員正是來自于此前的 Operator 與 Deep Research 部門,目前團隊規模大約在 20-35 人。OpenAI 對外表示,ChatGPT Agent 是 Operator 和 Deep Research 功能自然延續," 我們發現用戶通過 Operator 嘗試的許多查詢實際上更適合 Deep Research,因此我們將兩者的優勢結合在一起。"

OpenAI 表示,這次發布僅標志著他們將智能體功能直接集成到 ChatGPT 中的第一步,他們計劃定期逐步更新更多功能。

兩種技術路線

相較于初創公司們過去半年來圍繞輸出質量和交付體驗不斷工程迭代和提示優化,OpenAI 剛剛發布的 ChatGPT Agent 在任務的最終呈現上可以稱得上是粗糙。

初創公司們試圖為用戶呈現一個完成度更高且上手難度更低的 Agent 產品。以 Manus 為例,過去 2 個月來這家公司先后為產品加入了包括 PPT 生成、視頻生成、音頻生成等諸多不同能力,官網還列舉出了諸多現成的模板分享以及用戶案例分享。即便這些能力的實現都依托于外部模型,但至少在上手難度上,初創公司們都做得比 OpenAI 更好一些。

Manus 官網分享的模板

但拋去這些應用體驗創新,在基礎模型的能力比拼維度上,ChatGPT Agent 通過端到端訓練的統一模型顯然更有優勢。OpenAI 為 ChatGPT Agent 做了諸多學術測試,部分測試結果甚至領先于 OpenAI o3 或 GPT 4o,達到行業最高水平。

比如在《人類的最后考試》(Humanity ’ s Last Exam)評估中,ChatGPT Agent 取得了取得了 41.6%(pass@1)的新高,大約是 OpenAI o3 的兩倍。DSBench 測試中,ChatGPT Agent 大幅度領先于 GPT-4o,在數據分析任務中的表現更是明顯優于人類水平。

Humanity ’ s Last Exam 測試結果

在專門衡量電子表格編輯能力的 SpreadsheetBench 平臺上,ChatGPT Agent 創下行業新高,性能較 GPT-4o 領先一倍。OpenAI 稱,在他們的內部基準測試中,ChatGPT Agent 的能力大致相當于 1 至 3 年經驗的投資銀行分析師水平。

簡單來說,OpenAI 更強調 ChatGPT Agent 帶來的底層模型能力的提高,而初創公司們受限于技術及資金則更傾向于應用創新。

7 月 19 日凌晨,Manus 聯合創始人季逸超發文稱,Manus 仍將繼續押注于上下文工程(in-context learning)而非端到端智能體。

他說,早在 Mannus 項目初期,他們就在思考是使用開源模型訓練一個端到端的智能體,還是基于前沿模型的上下文學習能力構建智能體。GPT-3 等模型的出現讓他們意識到,上下文工程才是正確的方向,因為這些模型的能力遠高于他們此前的內部模型。

" 如果模型進步是上漲的潮水,我們希望 Manus 成為那條船,而不是固定在海床上的柱子。" 季逸超說,這可以使他們能夠在幾小時而非幾周內交付改進,并始終讓他免費產品與底層面模型保持正交。

他在這篇技術文檔中分享了不少 Manus 在上下文工程上的經驗,比如需要圍繞 KV 緩存進行設計、要使用系統文件作為上下文等等。這些工程創新顯著提升了 Manus 的響應速度以及成本優勢。

季逸超舉例,使用 KV 緩存可以大幅度提升首個 token 的生成時間和推理成本,例如使用 Claude Sonnet 時,緩存的輸入 token 成本比未緩存的成本降低 10 倍。

季逸超分享的技術文檔

上下文工程的創新的確也可以使智能體擁有更好的性能效果。非盈利人工智能研究機構 Epoch AI 測試了 ChatGPT Agent 在 FrontierMath 數學試題集中的表現,稱 ChatGPT Agent 在 Tier 1-3 的數學題上只得到了 27% 的正確率,且難度越高得分越低。

但當每道題允許 ChatGPT Agent 嘗試 16 次之后,它的得分就從 27% 大幅度提升至 49%。Epoch AI 說,這表明更好的更好的提示詞設計(prompting)或任務結構支持(scaffolding),可能會顯著提升當前模型的性能。

Epoch AI 測試結果

換句話說,即便是相同的模型,創業公司們依然可以通過更好的提示工程與上下文設計,來達到遠超基準模型的效果。

" 你如何塑造上下文最終決定了你的智能體的行為方式:它運行的速度、恢復的效果以及擴展的范圍。" 季逸超說。

如何與 Agent 的未來共處

ChatGPT Agent 的正式推出,標志著 AI Agent 正式進入巨頭博弈的時代。它帶給人類的社會的影響不會比大模型爆發之初的影響小,讓 AI 搶奪人類工作真正成了現實。

這種改變已經在悄然發生。微軟和亞馬遜等科技巨頭們都在密集裁員,微軟 CEO 薩蒂亞 · 納德拉今年初表示,微軟 20% 到 30% 的代碼都由 AI 生成。一家金融科技公司 Klarna 更是早在去年初就對外宣布,他們的 AI Agent 僅投入使用一個月,就處理了公司 2/3 的客服聊天工作,相當于 700 名全職人工客服的工作量。

市場研究機構 MarketsandMarkets 表示,全球的 AI Agent 市場將從 2024 年的 51 億美元增長至 2030 年的 471 億美元,年均復合增長率(CAGR)達 44.8%。Deloitte 預測,到 2025 年,使用生成式 AI 的公司將有 25% 開始試點智能體,到 2027 年將增長至 50%。

AI Agent 的快速應用也讓行業人士產生擔憂。和過去大模型僅僅只是提供信息不同,AI Agent 真正具備了從思考到行動的完整能力。比如 ChatGPT Agent 現在已經可以訪問網站幫助用戶下單購物、自動填寫信用卡地址,也可以訪問用戶的日歷、電子郵件、云盤等隱私信息。對于使用 AI Agent 的人們來說,這意味著他們將自己的私人信息交給了一個 " 黑盒 ",也更容易受到攻擊。

發布會上,OpenAI 也專門強調了 ChatGPT Agent 的風險。他們強調,ChatGPT Agent 在執行所有重要操作前都會征得用戶同意," 用戶始終擁有控制權。" 同時,OpenAI 還加入了包括主動監督(Watch Mode)、主動風險緩解(Proactive risk mitigation)等安全措施。

OpenAI 發布的聲明

山姆 · 阿爾特曼在 ChatGPT Agent 推出后專門發布長篇推文警告用戶,要求用戶審慎地使用 ChatGPT Agent。

"Agent 代表著 AI 系統能力的新高度,它可以用自己的計算機完成一些令人驚嘆且復雜的任務。它融合了 Deep Research(深度研究)和 Operator(任務執行者)的理念,但遠比這些字面描述更強大 —— 它可以長時間思考,使用各種工具,再繼續思考,再采取行動,如此往復。" 山姆 · 阿爾特曼說。

山姆表示,雖然他們還不確定這些影響具體是什么,但也許會有人試圖惡意 " 欺騙 " 用戶的 AI Agent,使其提供不應該提供的隱私信息,并做出無法預測的不當操作。" 我們建議用戶只授予 Agent 完成任務所必需的最低限度訪問權限,以降低隱私和安全風險。" 山姆強調,他不會將 ChatGPT Agent 用于高風險的用戶或涉及大量個人信息的場景。

但對于已經演變成了一家商業盈利公司的 OpenAI 來說,它并不會因為隱私或者安全風險而減緩 AI Agent 迭代的步伐。

在 ChatGPT Agent 推出之前,《金融時報》就報道稱 OpenAI 正計劃在 ChatGPT 中開發支付結賬系統,通過 ChatGPT 完成訂單的商家需要向 OpenAI 支付傭金。《金融時報》稱,OpenAI 已經向部分合作伙伴電商平臺 Shopify 等展示了系統的早期版本。

主站蜘蛛池模板: 亚洲精品一区二区三区四区手机版 | 久久久999国产精品 久久久99精品免费观看 | 色网址在线观看 | 国产美女一级视频 | 日本国产欧美色综合 | 男人添女人下面免费毛片 | 日韩精品一区二区三区免费观看 | 国产91第一页 | 成人免费网站视频www | 国产女人在线视频 | 亚洲综合成人在线 | 国产一区2区 | 亚洲精品一区二区三区四区手机版 | 久久亚洲私人国产精品 | 九九热爱视频精品视频高清 | 国产美女操| 亚洲欧美在线精品一区二区 | 草草草在线 | 亚洲黄视频在线观看 | 久草手机在线播放 | 理论在线看 | 国产精品久久免费视频 | 欧美成年黄网站色高清视频 | 国产丝袜不卡一区二区 | a级毛片毛片免费观看永久 a级毛片毛片免费很很综合 | 国产欧美日韩综合一区二区三区 | 特黄女一级毛片 | 免费又黄又爽视频 | 久久久久久久久久久观看 | 欧美成人性做爰 | 国产日韩视频在线观看 | 99精品久久99久久久久久 | 一级黄色录相片 | 又黄又www| 久久e| 伊人一级 | 日韩精品一二三区 | 久久久国产成人精品 | 精品无码久久久久国产 | 久久精品国产亚洲精品2020 | 国产精品三级手机在线观看 |