作者:周源 / 華爾街見聞
6 月 30 日,百度正式開源文心大模型 4.5 系列(ERNIE 4.5),涵蓋 10 款不同參數(shù)規(guī)模的模型,包括 47B(470 億)、3B(30 億)激活參數(shù)的混合專家(MoE)模型及 0.3B(3 億)參數(shù)的稠密型模型,預(yù)訓(xùn)練權(quán)重與推理代碼均完全開放。
目前,這些模型已可在飛槳星河社區(qū)、HuggingFace 等平臺(tái)下載,百度智能云千帆大模型平臺(tái)也同步提供了 API(應(yīng)用程序編程接口:Application Programming Interface)服務(wù)。
這一動(dòng)作,延續(xù)了科技領(lǐng)域 " 開放協(xié)作 " 的傳統(tǒng)脈絡(luò),也為大模型技術(shù)的落地提供了新的可能性。
但百度創(chuàng)始人、董事長(zhǎng)兼 CEO 李彥宏曾在 2024 年的 WAIC(世界人工智能大會(huì):World Artificial Intelligence Conference)上,認(rèn)為開源大模型是 " 智商稅 "。
從參數(shù)覆蓋到工具適配
百度此次開源的 10 款模型,形成了從 0.3B 到 47B 參數(shù)的梯度覆蓋,囊括基礎(chǔ)文本模型和視覺多模態(tài)模型(VLM)。除最小的 0.3B 模型外,其余模型都采用異構(gòu)多模態(tài) MoE(專家混合模型:Mixture of Experts)架構(gòu)。
對(duì)于算力有限的中小開發(fā)者,0.3B 參數(shù)的稠密型模型可降低部署門檻,MoE 模型則能滿足企業(yè)級(jí)復(fù)雜任務(wù)的需求。這種分層供給思路,讓不同資源條件的使用者都能找到適配的工具。
與常規(guī)的單模態(tài) MoE 不同,此次百度開源的 ERNIE 4.5 模型是一種異構(gòu)混合型,也就是通過 " 分而治之 " 策略提升模型性能的人工智能架構(gòu):將多個(gè)不同類型的專家模塊集成在一起,每個(gè)輸入僅激活部分相關(guān)的專家模塊,從而在不顯著增加計(jì)算量的前提下大幅提升模型容量。
這種架構(gòu)的核心思想是將復(fù)雜任務(wù)分解給多個(gè)專門的 " 專家模型 "(Expert)處理,再通過門控網(wǎng)絡(luò)(Gating Network)動(dòng)態(tài)選擇最優(yōu)專家或組合專家輸出,從而在保持模型規(guī)??煽氐耐瑫r(shí),提升模型的表達(dá)能力和效率。
相對(duì)而言,文心大模型 4.5 系列的技術(shù)特點(diǎn),集中體現(xiàn)在多模態(tài)能力的優(yōu)化上。
作為原生多模態(tài)模型,ERNIE 4.5 對(duì)圖像、音視頻的理解能力并非簡(jiǎn)單疊加,而是基于異構(gòu) MoE 架構(gòu)實(shí)現(xiàn)的模態(tài)融合,沒有盲目追求單一指標(biāo)的突破,而是在文本任務(wù)性能穩(wěn)定的基礎(chǔ)上,逐步增強(qiáng)多模態(tài)處理能力。
觀察 ERNIE 4.5 的技術(shù)結(jié)構(gòu)可以發(fā)現(xiàn):ERNIE 4.5 的異構(gòu) MoE 架構(gòu)包含文本專家、視覺專家和共享專家三類 FFN 專家。
FFN 專家是指混合專家模型(MoE)中,由前饋神經(jīng)網(wǎng)絡(luò)(Feed-Forward Neural Network)構(gòu)成的專家模塊。
每個(gè) FFN 專家都可以看作是一個(gè)獨(dú)立的子模型,能處理特定類型或范圍內(nèi)的數(shù)據(jù)。
模型會(huì)通過門控網(wǎng)絡(luò)或路由機(jī)制來確定對(duì)于每個(gè)輸入 token,應(yīng)該由哪些 FFN 專家負(fù)責(zé)處理。
比如在圖像理解中,無論是日常照片還是漫畫圖標(biāo),模型都能輸出符合場(chǎng)景邏輯的解讀。這種能力的提升源于對(duì)多模態(tài)數(shù)據(jù)關(guān)聯(lián)性的持續(xù)學(xué)習(xí),而非孤立的技術(shù)堆砌。
眾所周知,英偉達(dá)之所以強(qiáng)大,除了 AI 加速卡本身性能出色,也與以 CUDA 適配開發(fā)工具生態(tài)有緊密關(guān)系。
百度也同步推出了 ERNIE 4.5 的配套開發(fā)工具:開源完整的開發(fā)工具鏈,包括 ERNIEKit 訓(xùn)練工具和 FastDeploy 推理部署工具,旨在降低開發(fā)者使用大模型的門檻,推動(dòng)多模態(tài) AI 技術(shù)的廣泛應(yīng)用。
這在本質(zhì)上,也是在踐行 " 工具應(yīng)當(dāng)服務(wù)于人 " 的技術(shù)倫理。
這些工具降低了模型后訓(xùn)練與部署的技術(shù)門檻,使開發(fā)者無需深入掌握底層原理,就能基于開源模型做二次開發(fā)。
百度此次開源并非孤立動(dòng)作,早在今年 2 月,百度便公布了文心大模型 4.5 的開源計(jì)劃。
從生態(tài)構(gòu)建的角度看,文心大模型 4.5 的開源遵循了 " 技術(shù) - 用戶 - 數(shù)據(jù) " 的正向循環(huán)邏輯。
生態(tài)的價(jià)值在于連接而非控制。
百度通過開源將模型的使用權(quán)交給開發(fā)者,后者基于模型開發(fā)的應(yīng)用會(huì)產(chǎn)生新的數(shù)據(jù)反饋,這些數(shù)據(jù)又會(huì)反哺模型迭代。
比如零售企業(yè)用其開發(fā)商品圖像識(shí)別工具時(shí),積累的行業(yè)數(shù)據(jù)可幫助模型優(yōu)化對(duì)商品特征的捕捉;教育機(jī)構(gòu)的使用則可能提升模型對(duì)教學(xué)場(chǎng)景的理解,這種分布式的優(yōu)化過程,比單一企業(yè)閉門研發(fā)更高效。
考量:平衡共享與可持續(xù)
飛槳平臺(tái)與文心模型的 " 雙層開源 ",進(jìn)一步強(qiáng)化了生態(tài)的協(xié)同性。
飛槳作為底層框架,為模型提供了運(yùn)行環(huán)境;文心模型作為上層應(yīng)用載體,豐富了框架的使用場(chǎng)景。
此等結(jié)構(gòu)符合美國(guó)生物學(xué)家馬古利斯提出的 " 內(nèi)共生理論 " ——不同組件通過互利共生形成更強(qiáng)大的整體。
開發(fā)者在飛槳上調(diào)試文心模型時(shí),不僅在使用工具,也在參與兩個(gè)系統(tǒng)的協(xié)同優(yōu)化,這種深度綁定比單純的技術(shù)輸出更能增強(qiáng)生態(tài)粘性。
但開源不意味著無邊界的免費(fèi)。
文心大模型 4.5 采用 Apache 2.0 協(xié)議,既允許商業(yè)使用,也要求保留原作者信息,這樣的制度設(shè)計(jì)平衡了共享與權(quán)益保護(hù)。
實(shí)際上,從現(xiàn)實(shí)角度出發(fā),清晰的產(chǎn)權(quán)界定是協(xié)作的前提。
明確的協(xié)議條款讓開發(fā)者知道可以做什么、不能做什么,避免了技術(shù)應(yīng)用中的法律風(fēng)險(xiǎn),也為百度保留了商業(yè)變現(xiàn)的空間:通過云平臺(tái) API 服務(wù)、增值工具等方式實(shí)現(xiàn)可持續(xù)運(yùn)營(yíng)。
從成本角度看,開源是一種 " 分布式研發(fā) " 策略。大模型的訓(xùn)練與迭代需要持續(xù)投入算力與人力,單一企業(yè)難以承擔(dān)全部成本。
什么是好的管理呢?很簡(jiǎn)單,就是讓合適的人做合適的事。
百度將模型開源后,全球開發(fā)者的智慧被納入創(chuàng)新體系,有人優(yōu)化推理速度,有人拓展應(yīng)用場(chǎng)景。這樣的分工,讓每個(gè)參與者都能聚焦自己擅長(zhǎng)的領(lǐng)域,間接降低了整體研發(fā)成本。
對(duì)行業(yè)而言,百度的開源模式提供了一種 " 標(biāo)準(zhǔn)化基礎(chǔ)上的差異化創(chuàng)新 " 路徑。
基礎(chǔ)模型的統(tǒng)一,減少了重復(fù)研發(fā)的浪費(fèi);而開發(fā)者的二次創(chuàng)新,則能滿足不同行業(yè)的個(gè)性化需求。
就像制造業(yè)側(cè)重模型對(duì)工業(yè)圖紙的理解,傳媒行業(yè)則更關(guān)注文本生成的流暢性。這是一種 " 共性技術(shù) + 個(gè)性應(yīng)用 " 的模式,基礎(chǔ)技術(shù)是基因,行業(yè)應(yīng)用是其在不同環(huán)境中的表現(xiàn)型,豐富了技術(shù)的生態(tài)多樣性。
文心大模型 4.5 的開源,為國(guó)內(nèi)大模型產(chǎn)業(yè)提供了一種可參考的發(fā)展范式。
不同于閉源模式的黑箱操作,開源讓技術(shù)能力變得可觸摸、可驗(yàn)證。開發(fā)者可直接查看模型權(quán)重與推理代碼,當(dāng)模型做出決策時(shí),使用者能追溯其邏輯鏈條,而非被動(dòng)接受結(jié)果。
從全球視角看,此次開源也是國(guó)產(chǎn)大模型參與國(guó)際協(xié)作的一次嘗試。
當(dāng)前全球大模型領(lǐng)域存在多種發(fā)展路徑:有的堅(jiān)持閉源商用,有的選擇部分開源,有的則完全開放。
文心大模型 4.5 的全量開源,相當(dāng)于向全球開發(fā)者遞出了技術(shù)名片,其開放姿態(tài),有助于國(guó)產(chǎn)技術(shù)融入全球創(chuàng)新網(wǎng)絡(luò),在國(guó)際反饋中找準(zhǔn)自身定位。
當(dāng)然,開源并非萬(wàn)能鑰匙。模型的性能最終仍需在實(shí)際應(yīng)用中檢驗(yàn):在工業(yè)質(zhì)檢場(chǎng)景中能否精準(zhǔn)識(shí)別微小缺陷,在政務(wù)服務(wù)中能否理解復(fù)雜的民生訴求,在教育輔助中能否貼合教學(xué)規(guī)律:這些真實(shí)場(chǎng)景的考驗(yàn),比實(shí)驗(yàn)室的評(píng)測(cè)數(shù)據(jù)更有說服力。
百度開源文心大模型 4.5 的意義,或許不在于當(dāng)下的技術(shù)突破,而在于其展現(xiàn)的發(fā)展思路:在開放中凝聚共識(shí),在協(xié)作中解決問題。
當(dāng)越來越多的開發(fā)者參與進(jìn)來,當(dāng)模型在更多行業(yè)場(chǎng)景中落地,大模型技術(shù)才能真正走出實(shí)驗(yàn)室,成為推動(dòng)社會(huì)進(jìn)步的實(shí)用工具,但這一過程沒有捷徑。