日本一区二区三区久久-日本一区二区三区久久精品-日本一区二区三区日本免费-日本一区二区三区在线观看视频-国产不卡免费视频-国产不卡视频

關(guān)于ZAKER 合作
量子位 2小時(shí)前

Mamba 一作預(yù)告新架構(gòu)!長(zhǎng)文論述 Transformer 最終解法

Mamba 一作最新大發(fā)長(zhǎng)文!

主題只有一個(gè),即探討兩種主流序列模型——狀態(tài)空間模型(SSMs)和 Transformer 模型的權(quán)衡之術(shù)

簡(jiǎn)單介紹下,Mamba 就是一種典型的 SSMs,它建立在更現(xiàn)代的適用于深度學(xué)習(xí)的結(jié)構(gòu)化 SSM 基礎(chǔ)上,與經(jīng)典架構(gòu) RNN 有相似之處。

在最受關(guān)注的語(yǔ)言任務(wù)上,Mamba-3B 超越同等規(guī)模的 Transformer,與兩倍大的 Transformer 匹敵,因此被視為 Transformer 架構(gòu)的有力挑戰(zhàn)者

現(xiàn)在,Mamba 一作將自己去年的幾場(chǎng)演講整合成一篇科普長(zhǎng)文,向大眾分享了如下觀點(diǎn):

Attention 雖強(qiáng),但不是萬(wàn)能。

Transformer ≠最終解法,而是階段性最優(yōu)。

" 讓每個(gè) FLOPs 都有意義 " 才是架構(gòu)設(shè)計(jì)的最終目標(biāo)。

將 SSM 層與注意力層按一定比例混合能帶來(lái)更強(qiáng)大的模型。

……

而且他還提前劇透,幾天后將發(fā)布 " 架構(gòu)領(lǐng)域的下一個(gè)重大進(jìn)展 "

雖然還不知道具體內(nèi)容,但他目前扔出來(lái)的消息已經(jīng)足夠大家抓耳撓腮一段時(shí)間了。

因?yàn)樗岬搅艘粋€(gè)重要觀點(diǎn)——注意力機(jī)制的缺點(diǎn)實(shí)際上并不是它的二次復(fù)雜度

要知道之前大家都認(rèn)為,ChatGPT 等大模型之所以處理長(zhǎng)文本算力消耗巨大,背后原因是 Transformer 架構(gòu)中注意力機(jī)制的二次復(fù)雜度。

而現(xiàn)在,這樣的共識(shí)或許即將被推翻 ~

不過(guò)好消息是,即將推出的新架構(gòu)能夠和 Transformers 兼容

那么在迎來(lái)新架構(gòu)之前,先讓我們完整回顧下 SSMs 和 Transformers 的 " 世子之爭(zhēng) " 吧(doge)。

SSMs 就像人類的大腦

一上來(lái),作者先定義了什么是狀態(tài)空間模型(SSMs)?

方程看不懂不要緊,只需要知道它可以通俗理解為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的現(xiàn)代版

更直觀的類比如下:

Transformer 就像人類每寫一個(gè)字之前,都把前面的所有字 + 輸入都復(fù)習(xí)一遍,所以寫的慢。

RNN 每次只參考前面固定的字?jǐn)?shù),寫的快,但容易忘掉更前面的內(nèi)容。

而以 Mamba 為代表的 SSMs每次參考前面所有內(nèi)容的一個(gè)概括,越往后寫對(duì)前面內(nèi)容概括得越狠,丟掉細(xì)節(jié)保留大意。

這一工作方式有點(diǎn)像人類的大腦——不斷接收新信息(輸入),并將其壓縮、總結(jié)成一個(gè)固定大小的 " 隱藏狀態(tài) "(即模型的內(nèi)部記憶),一旦模型需要處理新信息時(shí),它只與這個(gè)總結(jié)過(guò)的 " 記憶 " 互動(dòng),而不是回顧所有舊細(xì)節(jié)。

這也意味著,SSM 相比其他架構(gòu)更適合處理長(zhǎng)序列信息,而且它還具備兩大優(yōu)勢(shì):

第一,非常適合處理非結(jié)構(gòu)化或 " 低分辨率 " 數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,采用 SSM 架構(gòu)的 Mamba 在語(yǔ)言、音頻、DNA 序列模態(tài)上都實(shí)現(xiàn)了 SOTA。

第二,處理長(zhǎng)序列信息時(shí),其計(jì)算成本與序列長(zhǎng)度呈線性關(guān)系(不會(huì)突然急劇上升),且無(wú)論輸入序列有多長(zhǎng),模型在推理過(guò)程中所需的內(nèi)存量都是固定的(適合資源有限的環(huán)境)。

按照作者總結(jié),Mamba 的成功得益于 SSM 的三個(gè)關(guān)鍵要素:

(1)狀態(tài)大小 ( State size )

傳統(tǒng) RNN 通常只有一個(gè)較小的隱藏狀態(tài),而 SSMs 通過(guò)允許隱藏狀態(tài)成為一個(gè)更高維度的向量,能夠存儲(chǔ)比舊 RNN 多 N 倍的信息。

(2)狀態(tài)表達(dá)能力 ( State expressivity )

早期 SSMs 以固定不變的方式更新狀態(tài),適合處理音頻(信息變化規(guī)律)但不適合處理語(yǔ)言(信息速率變化快、需要選擇性記憶)數(shù)據(jù)。

而 Mamba 通過(guò)引入 " 選擇性 SSMs" 解決了這個(gè)問(wèn)題,與經(jīng)典 RNN" 門控機(jī)制 " 相似,它可以根據(jù)當(dāng)前輸入數(shù)據(jù)來(lái)決定哪些信息該記住,哪些該遺忘。

(3)訓(xùn)練效率 ( Training efficiency )

盡管狀態(tài)更大、表達(dá)力更強(qiáng)會(huì)增加計(jì)算難度,但 Mamba 通過(guò)精心的參數(shù)化和利用經(jīng)典的并行掃描算法來(lái)解決計(jì)算效率問(wèn)題。

而且它和其他現(xiàn)代循環(huán)模型一樣,都注重并行化、內(nèi)存管理以及模型線性度以提高計(jì)算效率。

不過(guò)作者也提醒,SSMs缺乏對(duì)過(guò)去信息的精細(xì)回憶和精確檢索能力

Transformer 模型更像一個(gè)數(shù)據(jù)庫(kù)

相比之下,Transformer 模型更像一個(gè)數(shù)據(jù)庫(kù)——

會(huì)把收到的每一個(gè)信息(通常是經(jīng)過(guò) Tokenization 處理的 "token")都完整記錄下來(lái),并儲(chǔ)存在一個(gè)叫做 "KV 緩存 " 的臨時(shí)記憶區(qū)中。當(dāng)模型需要處理新信息時(shí),它會(huì)回顧并比較所有以前儲(chǔ)存過(guò)的 "token"。

其核心組件是自注意力機(jī)制,所帶來(lái)的優(yōu)缺點(diǎn)也非常明顯。

一方面,Transformer 模型能完美記住并精細(xì)處理序列中每一個(gè)單獨(dú)的 "token"。

這使得它在處理已經(jīng)過(guò)預(yù)處理、每個(gè) "token" 都具有明確含義的數(shù)據(jù)時(shí)表現(xiàn)出色。如經(jīng)過(guò)分詞(Tokenization)處理的文本,每個(gè)詞都帶有語(yǔ)義,Transformer 就能很好地利用它們。

缺點(diǎn)就是計(jì)算成本高以及過(guò)于依賴高質(zhì)量數(shù)據(jù)。

而針對(duì) Tokenization,作者也探討了它是否應(yīng)該存在的問(wèn)題,并得出如下觀點(diǎn):

盡管 Tokenization 有實(shí)用價(jià)值,但強(qiáng)烈建議廢除。

作者認(rèn)為,雖然 Tokenization 能夠?qū)⑿蛄虚L(zhǎng)度縮短約 5 倍,從而顯著提高語(yǔ)言模型的效率,但這只是表面現(xiàn)象。

首先,Tokenization 違背了深度學(xué)習(xí) " 端到端 " 的自動(dòng)學(xué)習(xí)精神,即模型應(yīng)該從原始數(shù)據(jù)中自動(dòng)學(xué)習(xí),而不是依賴人工預(yù)處理。

更要命的是,Tokenization 在多語(yǔ)言和多模態(tài)應(yīng)用中實(shí)施起來(lái)非常困難甚至不可能,而且還可能限制模型的 Scaling Law 和推理能力。

比如眾所周知的翻車事件,模型不會(huì)數(shù) "strawberry" 這個(gè)詞中有多少個(gè) R,就有 Tokenization 的影響。

一句話,作者堅(jiān)持認(rèn)為從原始數(shù)據(jù)中學(xué)習(xí)才是一種更好的模式

而且已有實(shí)驗(yàn)證據(jù)表明,在未經(jīng) Tokenization 處理的數(shù)據(jù)上,SSMs 的表現(xiàn)顯著優(yōu)于 Transformer,即使 Transformer 被允許使用更多的計(jì)算資源。這進(jìn)一步強(qiáng)調(diào)了 Transformer 在處理非語(yǔ)義化 "token" 數(shù)據(jù)時(shí)的弱點(diǎn)。

至此可以小結(jié)一下,SSMs 和 Transformer 模型可謂各有千秋。

那么能不能將二者結(jié)合一下呢?

混合一下性能更佳

答案是 yes!

作者發(fā)現(xiàn),將兩種類型的信息處理方式結(jié)合起來(lái),可能會(huì)產(chǎn)生更強(qiáng)大的效果。

這類似于人類智能既有大腦的模糊記憶,又有外部數(shù)據(jù)庫(kù)的精確檢索能力。

多項(xiàng)獨(dú)立研究表明,在這些混合模型中,SSM 層與注意力層之間的最佳比例大約在 3:1 到 10:1 之間。

如此也說(shuō)明,Attention 并非 All You Need

作者明確表示,他的主張不僅僅關(guān)乎計(jì)算效率(盡管簡(jiǎn)化數(shù)據(jù)可以減少注意力機(jī)制的二次復(fù)雜度開銷),而是一個(gè)更強(qiáng)烈的聲明,即 Transformer 在建模能力上存在固有的局限性。

最后,他也提到了已經(jīng)為人熟知的 Scaling Law 定律。

在他看來(lái),雖然 Transformer 目前很流行,但它們遠(yuǎn)非計(jì)算資源轉(zhuǎn)化的最優(yōu)選擇,而要設(shè)計(jì)新的架構(gòu),一個(gè)重要衡量標(biāo)準(zhǔn)是每個(gè) FLOPs(算力)能否物盡其用,快速轉(zhuǎn)化為模型能力

一言以蔽之,未來(lái)的方向可能是結(jié)合兩者的優(yōu)勢(shì),并開發(fā)能夠直接處理原始數(shù)據(jù)的模型。

不知道新架構(gòu)又能帶來(lái)多大驚喜?

參考鏈接:

[ 1 ] https://goombalab.github.io/blog/2025/tradeoffs/

[ 2 ] https://x.com/_albertgu/status/1942615020111876248

[ 3 ] https://x.com/tri_dao/status/1942617784204087536

一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評(píng)論區(qū)留下你的想法!

專屬 AI 產(chǎn)品從業(yè)者的實(shí)名社群,只聊 AI 產(chǎn)品最落地的真問(wèn)題 掃碼添加小助手,發(fā)送「姓名 + 公司 + 職位」申請(qǐng)入群~

進(jìn)群后,你將直接獲得:

最新最專業(yè)的 AI 產(chǎn)品信息及分析

不定期發(fā)放的熱門產(chǎn)品內(nèi)測(cè)碼

內(nèi)部專屬內(nèi)容與專業(yè)討論

點(diǎn)亮星標(biāo)

科技前沿進(jìn)展每日見

相關(guān)閱讀

最新評(píng)論

沒(méi)有更多評(píng)論了
主站蜘蛛池模板: 免费观看欧美一级毛片 | 成人五级毛片免费播放 | 免费看成人www的网站软件 | 欧美三级免费 | 欧美一级特黄特色大片免费 | 亚洲视频区 | 在线观看国产一区二三区 | 欧美一区二区三区在线 | 日本三级香港三级人妇99视 | 国内精品久久久久久久星辰影视 | 国产高清亚洲精品26u | 中文字幕亚洲日本岛国片 | 亚洲欧美二区三区久本道 | 成人伊人青草久久综合网 | 亚洲一区二区影院 | 性欧美高清极品xx | 久草在线视频免费看 | 久久精品片 | 欧美高清在线视频一区二区 | 国产高清精品一区 | 一级待一黄aaa大片在线还看 | 精品视频亚洲 | 久久精品视频5 | 大片刺激免费播放视频 | 中文字幕亚洲日本岛国片 | 国产精品吹潮在线播放 | 视频在线观看一区 | 毛片免费观看成人 | 韩日黄色片 | 日韩免费在线 | 久章草在线视频 | 特级毛片永久久免费观看 | 97在线看| 三级国产在线 | 国产精品高清视亚洲精品 | 久久99国产精品久久99果冻传媒 | a级一级黄色片 | 欧美日韩综合精品一区二区三区 | 亚洲天堂一区二区在线观看 | 在线免费观看成年人视频 | 国产精品三 |