狼人久草,九九热线有精品视频99,国产精品jvid在线观看

在 Pokee.ai 內測之前，我們就先感受了一把這款 Agent 的能力。

" 你發給我一個郵件就行，我的 Agent 能自動生成日程表。" 在跟朱哲清約電話會議的時候，微信那頭的這個人如是說。

他是知乎和小紅書的雙料活躍用戶，同時也是強化學習界冉冉升起的新星。他和團隊 2023 年 12 月份就發布了開源強化學習框架 Pearl，上線首日即在 Github 上收獲了 540 star，目前更是升至 2.8k。

2016 年，AlphaGo 擊敗李世石的那個晚上，還是少年的朱哲清捧著手機，靜靜坐在杜克大學教堂前，意識到 AI 已經走向了真實世界。他開始接觸強化學習（RL），從此就成為了 RL 的忠實信徒，即使在這一技術路線陷入最低谷時也從未想過放棄。

后來他在 Meta 帶領邊緣化的 RL 團隊逆勢突圍，將強化學習真正部署在廣告競價、推薦系統和自動內容生成等核心業務中，每年為公司創造數億美元的增益。

在 Meta 升職到 E7 后，朱哲清還是無法忘記他長期思考的本質問題：這在面對那么多不同類型的問題時，有沒有一種 RL 路徑，可以做到真正通用的智能體？懷揣著這個問題，在半年多前結束了他 7 年半的 Meta 生涯，成為了一名 AI Agent 創業者。

創業并不容易，在我們的聊天中，他承認自己創業這半年來完全沒有休息過，團隊 4 個人，搞定了模型架構、自動化、訓練、部署，再到 infra、產品等所有工作，這才在 4 月份的最后兩天推出了這款內測版本的 Pokee.ai。

借此機會，《AI 產品十人談》系列選擇對話朱哲清，詳細探討了他對強化學習與 Agent 的思考、探索與實踐。談到創業，這位一項冷靜的強化學習研究者也忍不住激動起來，畢竟一切正如他在知乎上所寫下的：

這波 AGI 的浪潮真的很大，親自踏浪才不會后悔。

以下是 AI 科技評論與朱哲清的對話實錄，作者進行了不改原意的編輯整理：

一個堅定的 RL 信仰者與他的 ASI 野心

AI 科技評論：從你的學術背景和工作經歷來看，你一直在做強化學習相關的研究和實踐。你是從什么時候開始接觸強化學習的？

朱哲清：我接觸強化學習非常早，大概是在 2016 年，本科二年級的時候。當時我開始學習和研究一些 RL 相關的內容，尤其是偏 Planning 方向的東西。

李世石和 AlphaGo 對戰的比賽對我影響非常深。當時我正在上關于強化學習的 AI 課程，AlphaGo 比賽之后，這門課突然爆滿。可以說，那是 RL 第一次在大眾層面迎來真正的高光時刻，AI 第一次在圍棋上戰勝人類，徹底改變了人們對人工智能的看法。隨后幾年里，圍繞 AlphaStar 在星際爭霸等復雜游戲中的突破，讓更多人關注起 RL。但很快我也親歷了這個領域的 " 冷卻期 "。

當我正式進入工作后，發現強化學習的熱度開始逐漸回落，甚至可以說是急轉直下。原因其實很現實，RL 始終難以脫離 " 游戲環境 "。它的訓練強依賴環境的構建和反饋機制，而這些在真實世界中是很難完整設定的。比如圍棋、電子游戲都有明確定義的規則和反饋路徑：你下什么棋會導致什么后果，系統可以清晰反饋。

但現實世界的任務場景，比如搜索排序、內容推薦、或者安卓平臺上的用戶行為建模，它們的反饋往往不是人為規定好的。這就意味著我們很難構建出一個訓練環境去承接 RL 的策略優化過程。包括 Alphago 項目的核心成員 David Silver 在那之后也一直嘗試把這些技術遷移到真實世界中，但最終仍不得不退回到更明確反饋機制的任務，比如數學證明之類。

所以，在 AlphaGo 之后雖然曾有一波 RL 熱潮，但由于真實落地太難，這波熱度很快就降溫了。真正把 RL 帶回大家視野的，其實是 RLHF 的興起。從 2017 年、2018 年開始，直到 2022 年之前，RL 基本處于一個低谷期。在這段時間里，大多數研究者其實都遠離了這個方向。彼時的行業主流觀點認為，Transformer 已經能解決一切，算法不再重要，數據和大模型參數才是關鍵，RL 似乎已經 " 過時 " 了。

但是我沒有放棄，一直堅定地認為 RL 仍有價值，關鍵是找到它真正適合的落地路徑。在 Meta 工作的那幾年，我見證了整個 RL 團隊從高峰走向邊緣。當時 Meta 的 RL 團隊從二十幾人一路縮減到三個人，公司甚至打算把這個團隊解散。我在那個時間點主動請纓，" 把這個團隊交給我試試。如果我做不好，你怎么處理我都可以。但如果我帶得起來，希望你給我繼續發展的空間。"

就這樣，我從三個人開始，一點一點把團隊重新帶起來，最后回到了十幾人的規模。可以說，我完整經歷了整個 RL 從爆發、低谷、再到新一輪復蘇的全過程。而我們的 " 復蘇 " 甚至比 RLHF 那一波重新火起來還要早一些。

AI 科技評論：你堅信 RL 的理由是什么呢？

朱哲清：核心原因其實很簡單。我的判斷是，單靠 " 預測 " 并不足以完成復雜任務。我舉一個例子：

比如你要做一個關于 " 人工智能與強化學習關系 " 的專題報道，要寫三四篇文章。你有兩種方式來展開這個任務。

第一種是 " 走到哪算哪 " 的思路：你不設定清晰的最終目標，只是每寫一篇就基于當前內容預測下一篇，比如第一篇寫強化學習的概念，第二篇自然而然談應用，第三篇再講現實中的實例……路徑是發散的，沒有明確終點。

第二種則是 " 目標驅動式 " 的思考：你的明確目標是讓讀者理解強化學習在人工智能中的重要性。基于這個目標，你會倒推：首先列舉一些強化學習的應用案例，比如 AlphaGo、AlphaStar，再進一步引申到現實場景中的價值，最后討論強化學習相對于其他算法的獨特優勢。

這兩種思維路徑本質上完全不同。而后者——以目標為導向、倒推任務路徑，才是人類解決復雜問題時的典型模式。你不可能靠 " 走到哪算哪 " 的隨機推進，來系統地完成一個復雜的項目。

強化學習的本質優勢就在這里：它的思維結構（thinking structure）是圍繞 " 目標驅動 " 的。只有圍繞明確目標，不斷調整策略、規劃路徑，才能真正攻克復雜問題。

所以當時我就認定，即使未來模型變得再大、訓練數據再多，如果它們沒有明確的目標驅動、沒有基于獎勵機制去主動規劃和執行的能力，就永遠無法真正完成復雜任務。這就是我當年堅持 RL 的底層邏輯。

AI 科技評論：所以你在 Meta 證明了你對 RL 的堅持是正確的？

朱哲清：我接手之前，RL 團隊同時對接多個項目，只做咨詢式的工作，成果非常少，地位也很邊緣化。我接手之后做了一個非常果斷的決定：只保留一個項目，集中所有資源，把這個項目做到真正有說服力、有價值、有成果。結果就是，我們給公司帶來了每年 5 億美元以上收入潛力的應用點。

AI 科技評論：你覺得你做對了什么？

朱哲清：這背后其實有一個前提，就是你自己必須對 RL 有非常深刻的認知，不僅要懂算法，還要能夠真正落地到復雜的、真實的應用場景中。

我們確實看到了很多 RL 算法逐漸出現通用性的跡象，但離真正的一以貫之的通用 RL 框架，還差很遠。我們想要追尋的是，打造一種能夠從頭到尾用 RL 邏輯貫穿的通用 Agent。不管面對什么任務、什么問題，只要把任務丟給 Agent，它就能自主規劃、自主解決。

這其中更本質的問題就是：在面對那么多不同類型的問題時，有沒有一種 RL 路徑，是可以做到真正通用的？這是我在 2024 年 10 月離開 Meta 之前，我們團隊一直在探索的核心議題。

AI 科技評論：其實你一直都在尋找一種真正底層通用、能夠大范圍解決問題的 RL 框架？

朱哲清：因為 RL 本身有很多天然的限制，比如線下學習的問題，你可以從數據集中學到一定的東西，但線下數據和真實環境差異巨大。并且線下學到的策略如何安全且高效地應用到線上？兩者差異怎么修正？線上運行后，如何持續收集新數據，不斷訓練優化，且避免性能退化？

所有這些問題，如果每次都靠單獨的 trick 和特殊設定去解決，就永遠不可能有真正通用的 RL 方法。所以我們想要的是一整套統一的結構性解決方案。從我的角度看，RL 其實是一個被嚴重低估、也被低度開發的方向，目前它大多數時間仍處在一個 " 輔助工具 " 的角色。

無論是 OpenAI 的 RLHF，還是 DeepMind 推出的一些模型，它們大多數都是在已有的預訓練模型基礎上進行增強，比如，我已經有一個不錯的大模型，然后通過 RLHF 這種方式，讓它在某個維度上 " 更好 "，比如提高用戶滿意度、優化輸出表現等等。所以目前的 RL 更多是一種 " 增強器 "，不是主角。

AI 科技評論：你是覺得它還沒有成為 " 主導智能 " 的那部分技術。

朱哲清：從我個人理解來看，現在這波 AI，已經可以說達到了 " 近人類級別智能 "（human-level intelligence）的 80%~90%。雖然 AGI（通用人工智能）這個概念非常模糊，但我們可以先不去定義它。那下一步呢？很多人談的是 " Superhuman Intelligence"（超人類智能）。如果真要往這個方向走，我認為強化學習是繞不開的路徑。

因為大型語言模型最擅長的是知識回憶和模仿，它能提出建議、生成文本，但它缺乏 " 結構化解決問題 " 的能力，也就是它沒有 " 主動性 " 或 " 目標驅動性 "。而 RL 的本質，就是解決目標導向的問題。你不能靠 " 模仿 " 去解決從未見過的復雜任務。你要有策略、目標、反饋機制，要能在未知環境中自主探索和優化。這才是真正的智能。

而且我個人覺得，現在很多程序員、算法工程師的基礎工作，包括模型微調、推理部署，這些事情很快都會被 AI 自動化工具所替代。甚至連預期管理、內容生成類工作，也都會被 " 會表達、會規劃 " 的 AI 接管。這意味著，下一代智能突破口的研發，是最值得花時間的事。

這也是我為什么選擇離開 Meta，去做我現在這家公司。我們現在在做的，不只是工具產品，而是在構建一個 " 能力系統 "。先通過工具 + 規劃去接近智能體的標準，然后逐步擴展它的工具庫、操作空間和決策深度。目標不是像人一樣完成任務，而是超過人類在某些任務中的策略選擇和規劃能力。

這就是我所理解的 " 通向 Superhuman Intelligence " 的路徑。

什么才是下一代的 Agent？

AI 科技評論：談談你的這款 AI Agent 產品 Pokee.ai 吧。

朱哲清：Pokee.ai 是一款具備強執行力的通用 AI Agent，它不是停留在 " 生成內容 " 層面的助手，而是一個能真正動手完成復雜任務的智能執行體。你只需要用自然語言下達一個指令，比如 " 生成一組社交媒體內容并發布 "，Pokee.ai 就能在沒有任何腳本配置的前提下，自動調用合適的工具，完成從內容創作、圖片生成、格式適配到平臺發布的全過程。

而且，這種執行力不止于社媒內容，工程團隊已經用它來自動生成 Zoom 會議紀要，也能通過一句 " 搭建一個 AI Agent 網站 "，讓它自動創建 GitHub 倉庫，寫出 HTML+JS 頁面，并發布到 GitHub Pages，全流程無需開發者手動介入。

除此之外，Pokee.ai 還能在商業場景中提升效率，比如我安排一個團隊會議，只需告訴它我要周五開個關于 AI Agent 市場趨勢的會議，它就會幫我完成調研、搜圖、做幻燈片、安排日程、發送日歷邀請，并附上資料鏈接，原本要我花幾個小時做完的準備工作，現在只需幾分鐘就能搞定。

更關鍵的是，在我們做過的對比實驗中，Pokee.ai 在面對成千上萬的工具時依然保持了超過 97% 的執行準確率，而其他基于 LLM 的 Agent 在工具數超過 500 時就會顯著下降，幾乎不可用。Pokee.ai 的優勢在于它的可擴展性和穩定性，不論工具數量如何擴展，它的響應成本幾乎不變，這使它成為真正有機會覆蓋全網服務的 Agent 架構。

未來，我們也會開放 API 和 SDK，讓每個團隊、每位開發者都能擁有屬于自己的 Pokee Agent，用最自然的方式去指揮最復雜的任務。

AI 科技評論：聽起來你現在做的 AI Agent，不只是工程產品，更像是在研究 " 下一代智能體 "。

朱哲清：是的，我們現在團隊其實一直是在兩條腿走路。一方面是做 " 早期產品 " ——比如用戶能體驗到的 Agent 系統，它可以幫你規劃、執行任務，有清晰的人機交互流程，也可以支持外部的應用落地。這部分要服務好市場，滿足用戶的期待，不能偏離 " 智能體該有的樣子 "。

另一方面，我個人其實把很大一部分精力都投在了 research 上。我們現在的很多核心代碼，包括 RL 訓練、模型結構設計，其實都是我親自寫的。我大概把時間一半花在技術產品、商業和團隊溝通上；另一半全在研究上。

我們現在一直在推進的方向，同時也是團隊最重要、我個人最長期關注的目標就是：到底有沒有一套通用的 RL 結構，能夠橫跨多個場景真正做出 " 具身智能體 "？

AI 科技評論：所以你們一開始其實是先做一個技術落地證明，對吧？

朱哲清：對，我們剛開始做 Pokee.ai 的時候，核心目標是先證明這個技術能打硬仗。那時候無論是投資人還是業界大部分人，對 "RL+Agent" 到底意味著什么，其實都還很模糊。甚至連 "Agent" 這個詞具體指什么，很多人都搞不清楚。我印象很深，當時和投資人聊時，他們經常會反復問：" 你這個技術方向到底在做什么？"、"Agent 能落地成什么樣？"、" 你們怎么打算實現？"

所以我們公司成立的兩個月之內，就完成了一個電商場景下的 Agent 系統落地：我們把 SDK、API、GraphQL、Command Line 這些全都接入到了我們的 Agent 系統中，ToB 和 ToC 兩側都可以覆蓋。并且這個項目在兩個月內就做完了，完成度非常高。對比來看，別人可能要花一年才能做出來的產品，我們在短時間內就做得功能更全、更穩定。這其實已經是很強的技術證明了。

但我們沒有止步于此。我們很快意識到，要證明這個 Agent 是真正 " 通用 " 的，僅靠幾十上百個工具還遠遠不夠。于是我們很快擴展到了上千、上萬個工具級別的調用能力，專門來訓練和驗證我們的 Agent 是否具備普適性的規劃和調度能力。

AI 科技評論：目前你們用的這個模型，是一個什么樣的模型？是完全自研的嗎？

朱哲清：我們沒有使用任何開源機構的模型，所有模型都是完全自主訓練的。

我們的架構是這樣的：我們有一個小型語言模型作為人機交互界面，相當于是我們的 " UI 層 "，用于理解用戶指令和上下文。但真正的 " 決策邏輯 " 和 " 行動執行 " 部分，全部是基于我們自研的強化學習結構來完成的。

AI 科技評論：為什么一定要自己預訓練語言模型？是覺得現成的大模型不好用嗎？

朱哲清：其實我們做的并不是一個語言模型，我們的強化學習模型本質上是為決策而設計的，而不是用來生成自然語言的。現在很多人采用的方法是直接套用別人的大語言模型，然后在外面再加一層 RL 層，去控制調用或交互。這種方式乍看之下效率高，但我們評估下來發現，用 " 殼 " 套語言模型來做 Agent，無法達到商用級別的精度和魯棒性。

首先是成本問題，我們自研模型的成本大概是同等規模語言模型的十分之一。其次，從設計哲學上說，我們認為當前語言模型在 " 決策建模 " 上存在本質問題。比如，大模型做決策通常是一個 " token-by-token " 的生成過程，也就是一個字一個字地生成輸出。但如果你真的是在進行一個復雜、多步、有規劃的任務決策——那就根本不應該是這么個結構。我們認為從底層邏輯上，這種設計就不對。

所以我們重構了整個系統，不是語言生成驅動的，而是由強化學習驅動的結構化決策系統。

AI 科技評論：那現在很多人可能做得比 " 純套殼 " 更多一點，會嘗試對 LLM 做后訓練，比如基于 RL 做一定程度的定制優化，你怎么看這種方式？

朱哲清：也不能說這種方式完全不可取，它在某些場景確實比 " 直接套殼 " 要強。但關鍵問題是，后訓練的目標是什么？你到底要解決什么問題？你得從頭去解構這個系統，只有把整個系統邏輯重新定義并重建，你才有可能做出一個真正 " 決策能力強 " 的 Agent。

現在大家在做 RL 時都默認是在語言模型架構上訓練 LLM，這會把整個問題想得太狹窄。我們選擇跳出這種范式，用自己的方式去重構決策架構，并借助 RL 去解決真正核心的規劃與執行問題。

AI 科技評論：如果是大模型公司自己來做 Agent，會不會更有優勢？

朱哲清：我覺得這要具體看你想做的 Agent 是什么類型。如果你定義的 Agent 只是處理語言相關任務，比如整理、檢索、總結、推理這類，那么大型語言模型公司確實有很大優勢。因為他們在語言理解和生成上的技術積累非常深厚。

但如果你定義的 Agent 是那種能在真實世界中行動、調用工具、與環境發生交互的智能體，那么單純依賴語言模型是不夠的。因為這時候，Agent 的決策空間、動作層、狀態層，已經完全超出了文字表述，它們涉及的是復雜環境建模、工具鏈調用、狀態變更，這些內容和語言的直接關系并不大。

舉個例子：如果你要做一個供應鏈管理 Agent，處理的是倉庫、運輸、庫存的路徑規劃，狀態是網狀圖，不是文字。那么你的 Agent 需要理解和操作復雜結構化數據，而不僅僅是生成幾段自然語言，在這種情況下，大模型公司在語言方面的積累優勢就不明顯了。所以，到底誰有優勢，要看你定義的 Agent 是哪種類型。

AI 科技評論：那你覺得，未來有沒有可能出現一種真正 " 通用 " 的 Agent？比如它既能做供應鏈優化，也能處理日常生活任務？

朱哲清：我認為不會存在一個單一的 Super Agent 來做所有事情。更可能出現的是一種分層結構：頂層有一個統一調度的總控 Agent（中央調度器），它根據用戶輸入分配任務給專業的垂類或者服務方的 Agent，各自處理特定領域的問題，比如供應鏈、內容創作、信息檢索、金融決策、客戶服務等等。

現在大家說的 " 多體 Agent"（multi-agent systems），其實跟學術界的定義還有點差距。真正學術意義上的 multi-agent，指的是多個智能體之間要么有通信協調，要么是互相競爭或協作去共同完成復雜任務。目前市面上的 " 多體 Agent"，更多是簡單的任務分工，但這種多體結構，確實是未來實現通用智能體的重要路徑。

如果這樣發展下去，我認為未來的形態可能是：用戶不再需要手動使用各種 App、工具。只需要給系統輸入一個自然語言指令或目標，比如：" 幫我完成這個項目 "、" 幫我制定旅行計劃 "。后臺有一整套分布式、模塊化的 Agent 體系，自動完成從信息檢索、決策規劃、到實際執行的全部步驟。

就像今天的互聯網，前端是瀏覽器，后端是各種網頁和應用。未來的 Agent 體系，就是一個沒有界面的 " 無形互聯網 "。用戶只需要給出目標，不再需要關注工具細節和操作過程。

雷峰網 AI 科技評論：在 Agent 的終極形態下， Browser 可能會被取代嗎？

朱哲清：Browser 在今天可以理解為是人與互聯網交互的一種通用前端。但如果未來 Agent 直接與智能體對接、交互，那么人作為中介、通過瀏覽器訪問網站的這個過程就失去意義了。

我的觀點是，長期來看，瀏覽器這種前端形態可能會消失，因為未來網絡中的接口將主要是 Agent to Agent 的接口。人不再需要直接面對網頁或 APP 界面，而是通過自己的 Agent，發出需求，由 Agent 與其他 Agent 進行交互和任務協作。

所以，未來互聯網可能是以智能體交互為核心的新網絡體系，而不是依靠前端瀏覽器來組織信息。

AI 科技評論：那未來 Agent 與 Agent 之間的接口，主要是依靠 MCP 來完成的嗎？

朱哲清：也不一定。雖然我們也會支持 MCP，但 MCP 是不是最后統一的標準，這點目前還不好說。但可以肯定的是，MCP 起到了推動的作用——至少讓大家有了一套可以使用的基礎接口，不至于完全沒有標準。

未來我們也會提供自己的更簡化版接口，希望把智能體之間的連接做得更輕量、更無感、更通用，而不僅僅是基于現在 MCP 這種復雜的模式。

雷峰網 AI 科技評論：在你看來，Agent 到底是什么？你有自己的定義嗎？

朱哲清：我的理解是這樣的：Agent 的核心在于 " 感知 " 和 " 執行 "。如果一個 Agent 不能自主執行，或者說它做完一件事情以后，對環境沒有產生任何實際變化，那么在我看來，它只是一個生成型 Agent，而不是真正的執行型 Agent。

我舉個簡單的例子：如果你寫了一篇文章，但它既沒有發表在任何平臺上，也沒有被人閱讀，也沒有后續交互，那它就只是一個生成行為。但如果你寫完文章后，自己決策在哪個平臺發布，發布后根據用戶反饋不斷調整優化，這樣使得你的賬號粉絲數、曝光量發生變化——那么你的行為就對世界產生了不可逆的影響。

所以，一個真正的 Agent，必須滿足兩個標準：它的行為必須能對環境產生實際的、不可逆的影響，并且要能自主規劃并執行任務。如果一個系統只是生成內容，真正決策和執行還是靠人來完成，那么它在我這里就不算是真正意義上的 Agent。

比如說，一個用戶只要說 " 幫我運營我的公眾號 "，Agent 自己去檢索工具、規劃路徑、完成執行，用戶無需知道有哪些工具、也無需干預具體步驟。這才是我們理解的下一代 Agent 的形態。

日本一区二区三区久久-日本一区二区三区久久精品-日本一区二区三区日本免费-日本一区二区三区在线观看视频-国产不卡免费视频-国产不卡视频

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

Pokee.ai 朱哲清：用 RL 搭建智能體的「骨骼與神經」

宙世代

一起剪

相關閱讀

蘋果稅的波瀾才剛剛開始

蘋果據悉擴展自研芯片版圖：將用于首款智能眼鏡與AI服務器

史上首次千億級家電巨頭戰略合作 海信美的如何“各取所需”？

MCP，AI時代的“書同文，車同軌”

階躍星辰姜大昕：多模態目前還沒有出現GPT-4時刻

山東棗莊首個萬兆光網發布：實測最快下載10271Mbps

中國客廳最貴智能設備！閨蜜機銷量大漲超42%

為“淘天”種草，小紅書留下了什么？

AI大模型賦能！吉利攜手深勢科技開啟電池安全“靶向藥級精準調控”時代，并成為首批通過電池安全新國標車企

起售價30.18萬/32.18萬元！理想L7/L8煥新版上市：升級52.3kWh大電池

超級玩家連續發力 Vidda貼貼壁紙電視、C3系列投影讓行業耳目一新

OpenAI人事大調整，技術理想主義又回來了

替代Windows！華為鴻蒙PC今天發布：中國人自己的電腦來了

全球最薄驍龍8至尊版旗艦！三星Galaxy S25 Edge官宣

聯想moto razr 60 Ultra國行今天發布：首款驍龍8至尊版小折疊

最新評論

雷峰網

熱門推薦

史上首次千億級家電巨頭戰略合作海信美的如何“各取所需”？