從一開(kāi)始的驚艷,到被加速捧至高點(diǎn),再到遭受套殼、營(yíng)銷(xiāo)的批評(píng),一切都發(fā)生在短短一周內(nèi)。
結(jié)論并不復(fù)雜:Manus 無(wú)疑是一款優(yōu)秀的產(chǎn)品。以「套殼」為理由來(lái)否定 Manus,是它的無(wú)妄之災(zāi)。
同時(shí),「縫合」一詞,也并不公允。一個(gè)通用型 agent 的能力和潛力,不僅體現(xiàn)在鏈接了多少工具,更在于對(duì)于 agent 本身的認(rèn)知。
那些圍繞營(yíng)銷(xiāo)和套殼展開(kāi)的爭(zhēng)議,指向的是一個(gè)問(wèn)題:Manus 的價(jià)值到底是什么?
橫空出世的「全球首個(gè)」
快忘了上周盛況的朋友們,這里有一個(gè)快速回顧:3 月 5 號(hào)深夜,Manus 上線內(nèi)測(cè),在官方展示的視頻中,放出了好幾個(gè)原本只在 PPT 中才會(huì)出現(xiàn)的精彩使用案例,無(wú)一不展現(xiàn)出 Manus 獨(dú)特的任務(wù)理解和執(zhí)行能力。
老實(shí)說(shuō) Agent(智能體)并不新鮮,但 Manus 打出「全球首個(gè)通用型智能體」的說(shuō)法,掀起了前所未有的討論浪潮,也讓「通用型 agent」走到臺(tái)前。
這種邀請(qǐng)碼的機(jī)制,陰差陽(yáng)錯(cuò)地把 Manus 推到一個(gè)近乎詭異的熱度,甚至被稱為「又一個(gè) DeepSeek 時(shí)刻」。
DeepSeek 是模型,Manus 是智能體,是截然不同的兩種產(chǎn)品。然而某種程度上,二者的歷程,確實(shí)有相似之處。
DeepSeek 做的是模型,但它并非是從零開(kāi)始,而是在一系列已有的開(kāi)源工作上,實(shí)現(xiàn)了工程上的勝利。
工程上的勝利究竟是指什么?
這個(gè)問(wèn)題必須回到「通用型 agent」是什么這個(gè)根本源頭上。
人跟動(dòng)物之間的區(qū)別在于制造和使用工具,這句話,放在 agent 身上也成立——普通 agent 和通用型 agent 的區(qū)別在于,后者能夠主動(dòng)調(diào)用工具。
「很多人覺(jué)得 agent 就是原來(lái)的對(duì)話機(jī)器人,接上數(shù)據(jù)庫(kù),就叫做 agent。實(shí)際上,一直以來(lái) agent 的定義都是需要能使用工具,能真正的有所行動(dòng)。」 William Lee 解釋道,他從去年開(kāi)始和創(chuàng)業(yè)團(tuán)隊(duì)一起開(kāi)發(fā)針對(duì) agent 的中臺(tái)系統(tǒng) ACI.DEV,就是在為 agent 類產(chǎn)品提供盡可能便捷的 API 調(diào)用服務(wù)。
在具體的產(chǎn)品使用上,工具調(diào)用能夠把 agent 的能力邊界,再推得更推遠(yuǎn)一些。活躍在 agent 開(kāi)發(fā)社區(qū)的堅(jiān)白,見(jiàn)識(shí)過(guò) Manus 在執(zhí)行上的能力:剪視頻。
「剪的效果怎么樣另說(shuō),但是它可以去做到,可以完成,不會(huì)拒絕你。」
原理并不復(fù)雜:剪輯的動(dòng)作,可以在一定程度上以代碼的方式來(lái)實(shí)現(xiàn)。又或者,一些在線工具可以被調(diào)用出來(lái),完成剪輯的動(dòng)作。
這樣完成的剪輯當(dāng)然是粗放的,成品跟人工剪輯無(wú)法相提并論,但就像堅(jiān)白所說(shuō),Manus 不會(huì)拒絕這個(gè)要求,而是會(huì)主動(dòng)尋找工具完成。「在過(guò)去的應(yīng)用里,agent 可能會(huì)推薦給你一個(gè)剪視頻的網(wǎng)站或者工具,但沒(méi)有這樣端到端的結(jié)果。」
他認(rèn)為這反應(yīng)了 Manus 團(tuán)隊(duì)的認(rèn)知,是在一種更有高度的位置上。「我認(rèn)為他們把代碼,包括整個(gè)代碼的運(yùn)行環(huán)境,更多作為工具,而不是目標(biāo)。」
「我覺(jué)得是他們?cè)谡J(rèn)知上有領(lǐng)先」,堅(jiān)白說(shuō),「大家都在說(shuō)要把 agent 當(dāng)成人看,但他們真的是認(rèn)真思考了 agent 如何作為一個(gè)主體。」
Key differentiation
那么,虛擬機(jī)是那個(gè)讓 Manus 脫穎而出的設(shè)計(jì)嗎?
「虛擬機(jī)不是一個(gè) creative 的設(shè)計(jì),」同樣是在做通用型 agent 產(chǎn)品的鄭淺解釋。
鄭淺所在的公司 Convergence.ai,在 1 月時(shí)推出了同樣屬于通用型 agent 的產(chǎn)品 Proxy,在 webvoyage 基準(zhǔn)測(cè)試中險(xiǎn)勝 OpenAI。
「OpenAI Operator 就是虛擬機(jī),Manus 是給 browser use 之后,加了一個(gè) coding execution,然后放到一個(gè)虛擬機(jī)里面去實(shí)現(xiàn)。」
Browser use,是一個(gè)在 Github 上獲得了 4 萬(wàn)星的開(kāi)源項(xiàng)目,它相當(dāng)于把網(wǎng)頁(yè)瀏覽器放在了 agent「眼」前,結(jié)合了大語(yǔ)言模型以及視覺(jué)識(shí)別。用戶只需要通過(guò)自然語(yǔ)言,就能讓智能體對(duì)網(wǎng)頁(yè)上的元素進(jìn)行實(shí)際操作。
這個(gè)形態(tài)比較線性,無(wú)法勝任更復(fù)雜的任務(wù)。或者說(shuō),當(dāng)任務(wù)的復(fù)雜程度上升,需要用戶給出更有細(xì)節(jié)的指令,反而成了對(duì)用戶的挑戰(zhàn)。
「我們公司算開(kāi)始得比較早,跟 OpenAI 和 H Company 他們也比較多交流,后來(lái) OpenAI Operator 出來(lái),agent 一下就變火了。大家很快就往一個(gè)新的東西上面去靠攏,就是 agent orchestrator。」鄭淺非常明確,「可以說(shuō) general agent 真正的區(qū)別,不在于縫合了多少工具。」
建設(shè)一個(gè)普通的 agent,可以用「縫合」簡(jiǎn)單粗暴地概括。但是要建設(shè)一個(gè) general agent,必須是一個(gè)系統(tǒng)工程。
「你可以把 agent 想象成一個(gè)人,最復(fù)雜的部分在于核心決策系統(tǒng)——就是大腦和神經(jīng)傳輸。其次復(fù)雜的是執(zhí)行構(gòu)建,比如說(shuō)相當(dāng)于人類的四肢與末端。至于你剛才提到的生成報(bào)告、瀏覽器交互、代碼執(zhí)行等功能模塊,本質(zhì)上屬于工具鏈層面的能力。」
人并不是生下來(lái)就會(huì)走路的,嬰兒只會(huì)胡亂揮舞手腳,然后會(huì)爬、會(huì)站,磕磕絆絆地學(xué)會(huì)走路,最后學(xué)會(huì)精準(zhǔn)地控制自己的四肢。
整個(gè)學(xué)習(xí)的過(guò)程,也是大腦逐漸成熟的過(guò)程。Proxy 的絕大多數(shù)工作都在圍繞這個(gè)「大腦」展開(kāi),具體而言,是 planner agent 所負(fù)責(zé)的動(dòng)態(tài)規(guī)劃。
「有一個(gè)調(diào)侃是,規(guī)劃不能預(yù)測(cè)未來(lái):規(guī)劃可以做的很好,但你不知道未來(lái)會(huì)發(fā)生什么。放在 agent 上面也是一樣的,比如說(shuō)它瀏覽某個(gè)網(wǎng)站,碰到無(wú)法打開(kāi)的情況,比如改版啊或者域名過(guò)期,或者直接關(guān)停等等,那這時(shí)候 agent 該怎么做,這就需要?jiǎng)討B(tài)規(guī)劃。」
一個(gè)典型場(chǎng)景是驗(yàn)證碼,Proxy 和 Manus 可以解決一些簡(jiǎn)單的驗(yàn)證碼,但太復(fù)雜的還是需要交回給用戶,也可能被直接跳過(guò)。
鄭淺解釋難度藏在細(xì)節(jié)里,「都是細(xì)節(jié),而且情況非常多樣。如何在規(guī)劃上去實(shí)現(xiàn)復(fù)雜任務(wù),同時(shí)又能回傳——用戶基數(shù)一大,做什么千奇百怪的事情都有,如何覆蓋各種各樣的場(chǎng)景是很大的難點(diǎn)。」
現(xiàn)階段 Manus 并非盡善盡美,但它足以作為一個(gè)工程啟示錄。「它主要的成功之處,確實(shí)就是在工程上面」Wiilliam 非常認(rèn)同這一點(diǎn),「它結(jié)合了市場(chǎng)上已有的模型,很好的跟工具做了對(duì)接,然后讓用戶第一次看到,真正可以調(diào)用工具的 agent 到底能做出什么樣的效果。這樣子我覺(jué)得百分之百是工程上的勝利。」
真正的勝利屬于生態(tài)
Manus 正像是那個(gè)正在學(xué)走路的幼兒,它能夠造成巨大的討論,并不在于它已經(jīng)能走多遠(yuǎn)、跳多高,而在于展示出了足夠的潛力。
這或許才是它最大的貢獻(xiàn):Manus 的走紅,讓一系列與 general agent 類的應(yīng)用,乃至基礎(chǔ)建設(shè)的工作,都漸漸浮出水面。
最新的進(jìn)展是 OpenAI 推出了 Responses API,這是一個(gè)面向開(kāi)發(fā)者,而且就是 agent 開(kāi)發(fā)者的新發(fā)布。
記憶儲(chǔ)存對(duì)于 agent 的實(shí)際工作至關(guān)重要,這不僅影響著 agent 能否從過(guò)往任務(wù)里學(xué)習(xí)到經(jīng)驗(yàn)并沿用,也影響著能否形成關(guān)于用戶使用習(xí)慣的記憶,真正做到個(gè)性化。
另外,通用型 agent 在理論上有著最大的自由度,可以鏈接和調(diào)用任何工具——在延遲、接口標(biāo)準(zhǔn)化等方面足夠好的前提下。這正是 ACI 這類中臺(tái)型產(chǎn)品,所想要提供的服務(wù)。
「其實(shí)通過(guò) Manus 可以看到,現(xiàn)在模型已經(jīng)跑在工程的前面很多了。」William 認(rèn)為工程方面還有很多可以探索的空間,「我們還可以在工程上面繼續(xù)做點(diǎn)什么,來(lái)拉高這種 AI agent 產(chǎn)品的效能。我個(gè)人的看法是現(xiàn)在 agent infrastructure 這一端的話都還是挺不成熟的,包括像我們這種工具調(diào)用平臺(tái),或者是說(shuō)這種 memory layer,這些在工程方面都還有很多方向是可以優(yōu)化的。」
這也是我們跟開(kāi)發(fā)者社群接觸下來(lái)最大的感受:他們感到興奮與躍躍欲試。「通用」兩個(gè)字所包含的可能性,前所未有的生動(dòng)。
Proxy 馬上要基于新的 parallel agent 思路,推出迭代的版本。鄭淺一直在觀察社群的反饋,他看到許多用戶把 Proxy 用出了自己根本沒(méi)想過(guò)的方式,不斷被挖掘出新的可能。
「大多數(shù)產(chǎn)品最后的使用目的,都不太會(huì)是一開(kāi)始開(kāi)發(fā)的目的,可能后面是由用戶來(lái)發(fā)現(xiàn)我們沒(méi)有發(fā)現(xiàn)的用途,我們也在等待那一個(gè) moment 的到來(lái)。」