在 Pokee.ai 內測之前,我們就先感受了一把這款 Agent 的能力。
" 你發給我一個郵件就行,我的 Agent 能自動生成日程表。" 在跟朱哲清約電話會議的時候,微信那頭的這個人如是說。
他是知乎和小紅書的雙料活躍用戶,同時也是強化學習界冉冉升起的新星。他和團隊 2023 年 12 月份就發布了開源強化學習框架 Pearl,上線首日即在 Github 上收獲了 540 star,目前更是升至 2.8k。
2016 年,AlphaGo 擊敗李世石的那個晚上,還是少年的朱哲清捧著手機,靜靜坐在杜克大學教堂前,意識到 AI 已經走向了真實世界。他開始接觸強化學習(RL),從此就成為了 RL 的忠實信徒,即使在這一技術路線陷入最低谷時也從未想過放棄。
后來他在 Meta 帶領邊緣化的 RL 團隊逆勢突圍,將強化學習真正部署在廣告競價、推薦系統和自動內容生成等核心業務中,每年為公司創造數億美元的增益。
在 Meta 升職到 E7 后,朱哲清還是無法忘記他長期思考的本質問題:這在面對那么多不同類型的問題時,有沒有一種 RL 路徑,可以做到真正通用的智能體?懷揣著這個問題,在半年多前結束了他 7 年半的 Meta 生涯,成為了一名 AI Agent 創業者。
創業并不容易,在我們的聊天中,他承認自己創業這半年來完全沒有休息過,團隊 4 個人,搞定了模型架構、自動化、訓練、部署,再到 infra、產品等所有工作,這才在 4 月份的最后兩天推出了這款內測版本的 Pokee.ai。
借此機會,《AI 產品十人談》系列選擇對話朱哲清,詳細探討了他對強化學習與 Agent 的思考、探索與實踐。談到創業,這位一項冷靜的強化學習研究者也忍不住激動起來,畢竟一切正如他在知乎上所寫下的:
這波 AGI 的浪潮真的很大,親自踏浪才不會后悔。
以下是 AI 科技評論與朱哲清的對話實錄,作者進行了不改原意的編輯整理:
一個堅定的 RL 信仰者與他的 ASI 野心
AI 科技評論:從你的學術背景和工作經歷來看,你一直在做強化學習相關的研究和實踐。你是從什么時候開始接觸強化學習的?
朱哲清:我接觸強化學習非常早,大概是在 2016 年,本科二年級的時候。當時我開始學習和研究一些 RL 相關的內容,尤其是偏 Planning 方向的東西。
李世石和 AlphaGo 對戰的比賽對我影響非常深。當時我正在上關于強化學習的 AI 課程,AlphaGo 比賽之后,這門課突然爆滿。可以說,那是 RL 第一次在大眾層面迎來真正的高光時刻,AI 第一次在圍棋上戰勝人類,徹底改變了人們對人工智能的看法。隨后幾年里,圍繞 AlphaStar 在星際爭霸等復雜游戲中的突破,讓更多人關注起 RL。但很快我也親歷了這個領域的 " 冷卻期 "。
當我正式進入工作后,發現強化學習的熱度開始逐漸回落,甚至可以說是急轉直下。原因其實很現實,RL 始終難以脫離 " 游戲環境 "。它的訓練強依賴環境的構建和反饋機制,而這些在真實世界中是很難完整設定的。比如圍棋、電子游戲都有明確定義的規則和反饋路徑:你下什么棋會導致什么后果,系統可以清晰反饋。
但現實世界的任務場景,比如搜索排序、內容推薦、或者安卓平臺上的用戶行為建模,它們的反饋往往不是人為規定好的。這就意味著我們很難構建出一個訓練環境去承接 RL 的策略優化過程。包括 Alphago 項目的核心成員 David Silver 在那之后也一直嘗試把這些技術遷移到真實世界中,但最終仍不得不退回到更明確反饋機制的任務,比如數學證明之類。
所以,在 AlphaGo 之后雖然曾有一波 RL 熱潮,但由于真實落地太難,這波熱度很快就降溫了。真正把 RL 帶回大家視野的,其實是 RLHF 的興起。從 2017 年、2018 年開始,直到 2022 年之前,RL 基本處于一個低谷期。在這段時間里,大多數研究者其實都遠離了這個方向。彼時的行業主流觀點認為,Transformer 已經能解決一切,算法不再重要,數據和大模型參數才是關鍵,RL 似乎已經 " 過時 " 了。
但是我沒有放棄,一直堅定地認為 RL 仍有價值,關鍵是找到它真正適合的落地路徑。在 Meta 工作的那幾年,我見證了整個 RL 團隊從高峰走向邊緣。當時 Meta 的 RL 團隊從二十幾人一路縮減到三個人,公司甚至打算把這個團隊解散。我在那個時間點主動請纓," 把這個團隊交給我試試。如果我做不好,你怎么處理我都可以。但如果我帶得起來,希望你給我繼續發展的空間。"
就這樣,我從三個人開始,一點一點把團隊重新帶起來,最后回到了十幾人的規模。可以說,我完整經歷了整個 RL 從爆發、低谷、再到新一輪復蘇的全過程。而我們的 " 復蘇 " 甚至比 RLHF 那一波重新火起來還要早一些。
AI 科技評論:你堅信 RL 的理由是什么呢?
朱哲清:核心原因其實很簡單。我的判斷是,單靠 " 預測 " 并不足以完成復雜任務。我舉一個例子:
比如你要做一個關于 " 人工智能與強化學習關系 " 的專題報道,要寫三四篇文章。你有兩種方式來展開這個任務。
第一種是 " 走到哪算哪 " 的思路:你不設定清晰的最終目標,只是每寫一篇就基于當前內容預測下一篇,比如第一篇寫強化學習的概念,第二篇自然而然談應用,第三篇再講現實中的實例……路徑是發散的,沒有明確終點。
第二種則是 " 目標驅動式 " 的思考:你的明確目標是讓讀者理解強化學習在人工智能中的重要性。基于這個目標,你會倒推:首先列舉一些強化學習的應用案例,比如 AlphaGo、AlphaStar,再進一步引申到現實場景中的價值,最后討論強化學習相對于其他算法的獨特優勢。
這兩種思維路徑本質上完全不同。而后者——以目標為導向、倒推任務路徑,才是人類解決復雜問題時的典型模式。你不可能靠 " 走到哪算哪 " 的隨機推進,來系統地完成一個復雜的項目。
強化學習的本質優勢就在這里:它的思維結構(thinking structure)是圍繞 " 目標驅動 " 的。只有圍繞明確目標,不斷調整策略、規劃路徑,才能真正攻克復雜問題。
所以當時我就認定,即使未來模型變得再大、訓練數據再多,如果它們沒有明確的目標驅動、沒有基于獎勵機制去主動規劃和執行的能力,就永遠無法真正完成復雜任務。這就是我當年堅持 RL 的底層邏輯。
AI 科技評論:所以你在 Meta 證明了你對 RL 的堅持是正確的?
朱哲清:我接手之前,RL 團隊同時對接多個項目,只做咨詢式的工作,成果非常少,地位也很邊緣化。我接手之后做了一個非常果斷的決定:只保留一個項目,集中所有資源,把這個項目做到真正有說服力、有價值、有成果。結果就是,我們給公司帶來了每年 5 億美元以上收入潛力的應用點。
AI 科技評論:你覺得你做對了什么?
朱哲清:這背后其實有一個前提,就是你自己必須對 RL 有非常深刻的認知,不僅要懂算法,還要能夠真正落地到復雜的、真實的應用場景中。
我們確實看到了很多 RL 算法逐漸出現通用性的跡象,但離真正的一以貫之的通用 RL 框架,還差很遠。我們想要追尋的是,打造一種能夠從頭到尾用 RL 邏輯貫穿的通用 Agent。不管面對什么任務、什么問題,只要把任務丟給 Agent,它就能自主規劃、自主解決。
這其中更本質的問題就是:在面對那么多不同類型的問題時,有沒有一種 RL 路徑,是可以做到真正通用的?這是我在 2024 年 10 月離開 Meta 之前,我們團隊一直在探索的核心議題。
AI 科技評論:其實你一直都在尋找一種真正底層通用、能夠大范圍解決問題的 RL 框架?
朱哲清:因為 RL 本身有很多天然的限制,比如線下學習的問題,你可以從數據集中學到一定的東西,但線下數據和真實環境差異巨大。并且線下學到的策略如何安全且高效地應用到線上?兩者差異怎么修正?線上運行后,如何持續收集新數據,不斷訓練優化,且避免性能退化?
所有這些問題,如果每次都靠單獨的 trick 和特殊設定去解決,就永遠不可能有真正通用的 RL 方法。所以我們想要的是一整套統一的結構性解決方案。從我的角度看,RL 其實是一個被嚴重低估、也被低度開發的方向,目前它大多數時間仍處在一個 " 輔助工具 " 的角色。
無論是 OpenAI 的 RLHF,還是 DeepMind 推出的一些模型,它們大多數都是在已有的預訓練模型基礎上進行增強,比如,我已經有一個不錯的大模型,然后通過 RLHF 這種方式,讓它在某個維度上 " 更好 ",比如提高用戶滿意度、優化輸出表現等等。所以目前的 RL 更多是一種 " 增強器 ",不是主角。
AI 科技評論:你是覺得它還沒有成為 " 主導智能 " 的那部分技術。
朱哲清:從我個人理解來看,現在這波 AI,已經可以說達到了 " 近人類級別智能 "(human-level intelligence)的 80%~90%。雖然 AGI(通用人工智能)這個概念非常模糊,但我們可以先不去定義它。那下一步呢?很多人談的是 " Superhuman Intelligence"(超人類智能)。如果真要往這個方向走,我認為強化學習是繞不開的路徑。
因為大型語言模型最擅長的是知識回憶和模仿,它能提出建議、生成文本,但它缺乏 " 結構化解決問題 " 的能力,也就是它沒有 " 主動性 " 或 " 目標驅動性 "。而 RL 的本質,就是解決目標導向的問題。你不能靠 " 模仿 " 去解決從未見過的復雜任務。你要有策略、目標、反饋機制,要能在未知環境中自主探索和優化。這才是真正的智能。
而且我個人覺得,現在很多程序員、算法工程師的基礎工作,包括模型微調、推理部署,這些事情很快都會被 AI 自動化工具所替代。甚至連預期管理、內容生成類工作,也都會被 " 會表達、會規劃 " 的 AI 接管。這意味著,下一代智能突破口的研發,是最值得花時間的事。
這也是我為什么選擇離開 Meta,去做我現在這家公司。我們現在在做的,不只是工具產品,而是在構建一個 " 能力系統 "。先通過工具 + 規劃去接近智能體的標準,然后逐步擴展它的工具庫、操作空間和決策深度。目標不是像人一樣完成任務,而是超過人類在某些任務中的策略選擇和規劃能力。
這就是我所理解的 " 通向 Superhuman Intelligence " 的路徑。
什么才是下一代的 Agent?
AI 科技評論:談談你的這款 AI Agent 產品 Pokee.ai 吧。
朱哲清:Pokee.ai 是一款具備強執行力的通用 AI Agent,它不是停留在 " 生成內容 " 層面的助手,而是一個能真正動手完成復雜任務的智能執行體。你只需要用自然語言下達一個指令,比如 " 生成一組社交媒體內容并發布 ",Pokee.ai 就能在沒有任何腳本配置的前提下,自動調用合適的工具,完成從內容創作、圖片生成、格式適配到平臺發布的全過程。
而且,這種執行力不止于社媒內容,工程團隊已經用它來自動生成 Zoom 會議紀要,也能通過一句 " 搭建一個 AI Agent 網站 ",讓它自動創建 GitHub 倉庫,寫出 HTML+JS 頁面,并發布到 GitHub Pages,全流程無需開發者手動介入。
除此之外,Pokee.ai 還能在商業場景中提升效率,比如我安排一個團隊會議,只需告訴它我要周五開個關于 AI Agent 市場趨勢的會議,它就會幫我完成調研、搜圖、做幻燈片、安排日程、發送日歷邀請,并附上資料鏈接,原本要我花幾個小時做完的準備工作,現在只需幾分鐘就能搞定。
更關鍵的是,在我們做過的對比實驗中,Pokee.ai 在面對成千上萬的工具時依然保持了超過 97% 的執行準確率,而其他基于 LLM 的 Agent 在工具數超過 500 時就會顯著下降,幾乎不可用。Pokee.ai 的優勢在于它的可擴展性和穩定性,不論工具數量如何擴展,它的響應成本幾乎不變,這使它成為真正有機會覆蓋全網服務的 Agent 架構。
未來,我們也會開放 API 和 SDK,讓每個團隊、每位開發者都能擁有屬于自己的 Pokee Agent,用最自然的方式去指揮最復雜的任務。
AI 科技評論:聽起來你現在做的 AI Agent,不只是工程產品,更像是在研究 " 下一代智能體 "。
朱哲清:是的,我們現在團隊其實一直是在兩條腿走路。一方面是做 " 早期產品 " ——比如用戶能體驗到的 Agent 系統,它可以幫你規劃、執行任務,有清晰的人機交互流程,也可以支持外部的應用落地。這部分要服務好市場,滿足用戶的期待,不能偏離 " 智能體該有的樣子 "。
另一方面,我個人其實把很大一部分精力都投在了 research 上。我們現在的很多核心代碼,包括 RL 訓練、模型結構設計,其實都是我親自寫的。我大概把時間一半花在技術產品、商業和團隊溝通上;另一半全在研究上。
我們現在一直在推進的方向,同時也是團隊最重要、我個人最長期關注的目標就是:到底有沒有一套通用的 RL 結構,能夠橫跨多個場景真正做出 " 具身智能體 "?
AI 科技評論:所以你們一開始其實是先做一個技術落地證明,對吧?
朱哲清:對,我們剛開始做 Pokee.ai 的時候,核心目標是先證明這個技術能打硬仗。那時候無論是投資人還是業界大部分人,對 "RL+Agent" 到底意味著什么,其實都還很模糊。甚至連 "Agent" 這個詞具體指什么,很多人都搞不清楚。我印象很深,當時和投資人聊時,他們經常會反復問:" 你這個技術方向到底在做什么?"、"Agent 能落地成什么樣?"、" 你們怎么打算實現?"
所以我們公司成立的兩個月之內,就完成了一個電商場景下的 Agent 系統落地:我們把 SDK、API、GraphQL、Command Line 這些全都接入到了我們的 Agent 系統中,ToB 和 ToC 兩側都可以覆蓋。并且這個項目在兩個月內就做完了,完成度非常高。對比來看,別人可能要花一年才能做出來的產品,我們在短時間內就做得功能更全、更穩定。這其實已經是很強的技術證明了。
但我們沒有止步于此。我們很快意識到,要證明這個 Agent 是真正 " 通用 " 的,僅靠幾十上百個工具還遠遠不夠。于是我們很快擴展到了上千、上萬個工具級別的調用能力,專門來訓練和驗證我們的 Agent 是否具備普適性的規劃和調度能力。
AI 科技評論:目前你們用的這個模型,是一個什么樣的模型?是完全自研的嗎?
朱哲清:我們沒有使用任何開源機構的模型,所有模型都是完全自主訓練的。
我們的架構是這樣的:我們有一個小型語言模型作為人機交互界面,相當于是我們的 " UI 層 ",用于理解用戶指令和上下文。但真正的 " 決策邏輯 " 和 " 行動執行 " 部分,全部是基于我們自研的強化學習結構來完成的。
AI 科技評論:為什么一定要自己預訓練語言模型?是覺得現成的大模型不好用嗎?
朱哲清:其實我們做的并不是一個語言模型,我們的強化學習模型本質上是為決策而設計的,而不是用來生成自然語言的。現在很多人采用的方法是直接套用別人的大語言模型,然后在外面再加一層 RL 層,去控制調用或交互。這種方式乍看之下效率高,但我們評估下來發現,用 " 殼 " 套語言模型來做 Agent,無法達到商用級別的精度和魯棒性。
首先是成本問題,我們自研模型的成本大概是同等規模語言模型的十分之一。其次,從設計哲學上說,我們認為當前語言模型在 " 決策建模 " 上存在本質問題。比如,大模型做決策通常是一個 " token-by-token " 的生成過程,也就是一個字一個字地生成輸出。但如果你真的是在進行一個復雜、多步、有規劃的任務決策——那就根本不應該是這么個結構。我們認為從底層邏輯上,這種設計就不對。
所以我們重構了整個系統,不是語言生成驅動的,而是由強化學習驅動的結構化決策系統。
AI 科技評論:那現在很多人可能做得比 " 純套殼 " 更多一點,會嘗試對 LLM 做后訓練,比如基于 RL 做一定程度的定制優化,你怎么看這種方式?
朱哲清:也不能說這種方式完全不可取,它在某些場景確實比 " 直接套殼 " 要強。但關鍵問題是,后訓練的目標是什么?你到底要解決什么問題?你得從頭去解構這個系統,只有把整個系統邏輯重新定義并重建,你才有可能做出一個真正 " 決策能力強 " 的 Agent。
現在大家在做 RL 時都默認是在語言模型架構上訓練 LLM,這會把整個問題想得太狹窄。我們選擇跳出這種范式,用自己的方式去重構決策架構,并借助 RL 去解決真正核心的規劃與執行問題。
AI 科技評論:如果是大模型公司自己來做 Agent,會不會更有優勢?
朱哲清:我覺得這要具體看你想做的 Agent 是什么類型。如果你定義的 Agent 只是處理語言相關任務,比如整理、檢索、總結、推理這類,那么大型語言模型公司確實有很大優勢。因為他們在語言理解和生成上的技術積累非常深厚。
但如果你定義的 Agent 是那種能在真實世界中行動、調用工具、與環境發生交互的智能體,那么單純依賴語言模型是不夠的。因為這時候,Agent 的決策空間、動作層、狀態層,已經完全超出了文字表述,它們涉及的是復雜環境建模、工具鏈調用、狀態變更,這些內容和語言的直接關系并不大。
舉個例子:如果你要做一個供應鏈管理 Agent,處理的是倉庫、運輸、庫存的路徑規劃,狀態是網狀圖,不是文字。那么你的 Agent 需要理解和操作復雜結構化數據,而不僅僅是生成幾段自然語言,在這種情況下,大模型公司在語言方面的積累優勢就不明顯了。所以,到底誰有優勢,要看你定義的 Agent 是哪種類型。
AI 科技評論:那你覺得,未來有沒有可能出現一種真正 " 通用 " 的 Agent?比如它既能做供應鏈優化,也能處理日常生活任務?
朱哲清:我認為不會存在一個單一的 Super Agent 來做所有事情。更可能出現的是一種分層結構:頂層有一個統一調度的總控 Agent(中央調度器),它根據用戶輸入分配任務給專業的垂類或者服務方的 Agent,各自處理特定領域的問題,比如供應鏈、內容創作、信息檢索、金融決策、客戶服務等等。
現在大家說的 " 多體 Agent"(multi-agent systems),其實跟學術界的定義還有點差距。真正學術意義上的 multi-agent,指的是多個智能體之間要么有通信協調,要么是互相競爭或協作去共同完成復雜任務。目前市面上的 " 多體 Agent",更多是簡單的任務分工,但這種多體結構,確實是未來實現通用智能體的重要路徑。
如果這樣發展下去,我認為未來的形態可能是:用戶不再需要手動使用各種 App、工具。只需要給系統輸入一個自然語言指令或目標,比如:" 幫我完成這個項目 "、" 幫我制定旅行計劃 "。后臺有一整套分布式、模塊化的 Agent 體系,自動完成從信息檢索、決策規劃、到實際執行的全部步驟。
就像今天的互聯網,前端是瀏覽器,后端是各種網頁和應用。未來的 Agent 體系,就是一個沒有界面的 " 無形互聯網 "。用戶只需要給出目標,不再需要關注工具細節和操作過程。
雷峰網 AI 科技評論:在 Agent 的終極形態下, Browser 可能會被取代嗎?
朱哲清:Browser 在今天可以理解為是人與互聯網交互的一種通用前端。但如果未來 Agent 直接與智能體對接、交互,那么人作為中介、通過瀏覽器訪問網站的這個過程就失去意義了。
我的觀點是,長期來看,瀏覽器這種前端形態可能會消失,因為未來網絡中的接口將主要是 Agent to Agent 的接口。人不再需要直接面對網頁或 APP 界面,而是通過自己的 Agent,發出需求,由 Agent 與 其他 Agent 進行交互和任務協作。
所以,未來互聯網可能是以智能體交互為核心的新網絡體系,而不是依靠前端瀏覽器來組織信息。
AI 科技評論:那未來 Agent 與 Agent 之間的接口,主要是依靠 MCP 來完成的嗎?
朱哲清:也不一定。雖然我們也會支持 MCP,但 MCP 是不是最后統一的標準,這點目前還不好說。但可以肯定的是,MCP 起到了推動的作用——至少讓大家有了一套可以使用的基礎接口,不至于完全沒有標準。
未來我們也會提供自己的更簡化版接口,希望把智能體之間的連接做得更輕量、更無感、更通用,而不僅僅是基于現在 MCP 這種復雜的模式。
雷峰網 AI 科技評論:在你看來,Agent 到底是什么?你有自己的定義嗎?
朱哲清:我的理解是這樣的:Agent 的核心在于 " 感知 " 和 " 執行 "。如果一個 Agent 不能自主執行,或者說它做完一件事情以后,對環境沒有產生任何實際變化,那么在我看來,它只是一個生成型 Agent,而不是真正的執行型 Agent。
我舉個簡單的例子:如果你寫了一篇文章,但它既沒有發表在任何平臺上,也沒有被人閱讀,也沒有后續交互,那它就只是一個生成行為。但如果你寫完文章后,自己決策在哪個平臺發布,發布后根據用戶反饋不斷調整優化,這樣使得你的賬號粉絲數、曝光量發生變化——那么你的行為就對世界產生了不可逆的影響。
所以,一個真正的 Agent,必須滿足兩個標準:它的行為必須能對環境產生實際的、不可逆的影響,并且要能自主規劃并執行任務。如果一個系統只是生成內容,真正決策和執行還是靠人來完成,那么它在我這里就不算是真正意義上的 Agent。
比如說,一個用戶只要說 " 幫我運營我的公眾號 ",Agent 自己去檢索工具、規劃路徑、完成執行,用戶無需知道有哪些工具、也無需干預具體步驟。這才是我們理解的下一代 Agent 的形態。