日本一区二区三区久久-日本一区二区三区久久精品-日本一区二区三区日本免费-日本一区二区三区在线观看视频-国产不卡免费视频-国产不卡视频

關(guān)于ZAKER 合作
鈦媒體 12小時(shí)前

多模態(tài)搶占 C 位,成為 AI 企業(yè)的“應(yīng)許之地”?

文 | 極智 GeeTech

須知參差多態(tài),乃是幸福本源。——羅素

人工智能占領(lǐng)世界,多模態(tài)統(tǒng)治人工智能。

從 OpenAI 發(fā)布 GPT-4o、谷歌亮出 Project Astra 到馬斯克新一代大模型 Gork-3,再到智譜 AI 自主智能體 AutoGLM、DeepSeek 開(kāi)源模型 Janus-Pro,以及智元機(jī)器人的啟元大模型 GO-1,這些模型背后,無(wú)論科技巨頭還是科技新星,都瞄準(zhǔn)了同一個(gè)方向:多模態(tài) AI。

谷歌研究報(bào)告顯示,預(yù)計(jì)至 2025 年,全球多模態(tài) AI 市場(chǎng)規(guī)模將飆升至 24 億美元,而到 2037 年底,這一數(shù)字更是預(yù)計(jì)將達(dá)到驚人的 989 億美元。

資本也用真金白銀對(duì)多模態(tài)投下了 " 信任票 "。根據(jù)全球金融追蹤機(jī)構(gòu) PitchBook 發(fā)布數(shù)據(jù)顯示,2024 年,生成式 AI 領(lǐng)域的融資活動(dòng)異常火爆,全年融資總額高達(dá) 560 億美元,同比增長(zhǎng) 192%。其中 OpenAI 融資總額 81 億美元,Anthropic 完成 75 億美元融資,xAI 共募集 120 億美元資金。這些投資主要聚焦于多模態(tài)生成技術(shù)突破、大語(yǔ)言模型優(yōu)化、計(jì)算效率提升等方向。

為什么全球 AI 企業(yè)選擇集體押注多模態(tài)?多模態(tài)又將如何塑造未來(lái)十年的 AI 格局?

多模態(tài)重塑 AI 進(jìn)行時(shí)

隨著 AI 越來(lái)越多地與現(xiàn)實(shí)世界發(fā)生交互,增強(qiáng)多模態(tài)能力、提升推理效率、降低訓(xùn)練成本以及加強(qiáng)領(lǐng)域?qū)I(yè)性,正成為大模型新一輪演化的重要方向。

如果把大語(yǔ)言模型(LLM)比作 " 關(guān)在籠子里的 AI",那么它和世界交互的方式就是通過(guò) " 遞文字紙條 "。

文字是人類(lèi)對(duì)世界的表示,存在著信息提煉、損失、冗余、甚至錯(cuò)誤。而多模態(tài)就像是讓 AI 繞開(kāi)了人類(lèi)的中間表示,直接接觸世界,從最原始的視覺(jué)、聲音、空間等開(kāi)始理解世界、改變世界。

" 模態(tài) " 一詞最早是生物學(xué)概念,人類(lèi)的 " 五感 " ——觸覺(jué)、聽(tīng)覺(jué)、視覺(jué)、嗅覺(jué)、味覺(jué),都是一種模態(tài)。從技術(shù)角度來(lái)說(shuō),模態(tài)就是感官數(shù)據(jù),不僅包括最常見(jiàn)的圖像、文本、視頻、音頻數(shù)據(jù),還包括傳感器等更為豐富的數(shù)據(jù)類(lèi)型。

大模型經(jīng)歷了從傳統(tǒng)單模態(tài)模型,到通用單模態(tài),再到通用多模態(tài)的演進(jìn)。

單模態(tài) AI 的輝煌已經(jīng)實(shí)現(xiàn),如語(yǔ)言模型(如 GPT)、視覺(jué)模型(如 ResNet)以及語(yǔ)音模型(如 Wav2Vec)雖取得了耀眼成就,但現(xiàn)實(shí)世界的復(fù)雜性無(wú)法僅靠單一模態(tài)理解。

這是由于單模態(tài) AI 只能處理某一種類(lèi)型的信息,通過(guò)讓 AI 學(xué)習(xí)互聯(lián)網(wǎng)上的海量文本、圖片等不同模態(tài)的數(shù)據(jù),尋找其內(nèi)在規(guī)律,但在算力、數(shù)據(jù)資源的限制下,僅依賴(lài)互聯(lián)網(wǎng)的數(shù)據(jù)學(xué)習(xí)會(huì)很快達(dá)到瓶頸,難以全面理解和應(yīng)對(duì)現(xiàn)實(shí)世界中多樣化的信息輸入。只有像人類(lèi)一樣多種感官信息相互補(bǔ)充,才能準(zhǔn)確感知和理解世界。

為了讓 AI 更接近人類(lèi)的認(rèn)知和交互水平,多模態(tài)技術(shù)應(yīng)運(yùn)而生。1971 年,美國(guó)心理學(xué)家艾伯特 · 梅拉賓(Albert Mehrabian)在著作《無(wú)聲的信息》一書(shū)中提出,人類(lèi)交流中僅有 7% 的信息通過(guò)語(yǔ)言傳遞,其余 93% 通過(guò)語(yǔ)調(diào)(38%)和面部表情、肢體動(dòng)作(55%)完成。這一發(fā)現(xiàn)被稱(chēng)為 " 梅拉賓法則 ",又稱(chēng) 7-38-55 規(guī)則,成為多模態(tài)理論早期的重要基礎(chǔ)。

隨著 OpenAI 的 DALL-E/GPT-4o/o1/o3、DeepMind 的 Flamingo 等多模態(tài)系統(tǒng)的問(wèn)世,讓 AI 打破模態(tài)邊界,不僅開(kāi)始理解世界,還能生成跨模態(tài)的內(nèi)容,這些進(jìn)步標(biāo)志著智能系統(tǒng)進(jìn)入了一個(gè)全新維度。

簡(jiǎn)單理解,多模態(tài) AI= 多種數(shù)據(jù)類(lèi)型 + 多種智能處理算法。

這一系統(tǒng)整合了多種不同模態(tài)的數(shù)據(jù),通過(guò)復(fù)雜的算法模型進(jìn)行融合處理,從而使 AI 系統(tǒng)能夠像人類(lèi)一樣,綜合運(yùn)用多種信息進(jìn)行決策和交互。正是這種跨越不同模態(tài)理解和創(chuàng)建信息的能力,超越此前側(cè)重于集成和處理特定數(shù)據(jù)源的單模態(tài) AI,贏得了各大科技巨頭的青睞。

多模態(tài) AI 的核心在于多源數(shù)據(jù)的整合與對(duì)齊。通過(guò)將視覺(jué)、語(yǔ)言和聲音轉(zhuǎn)化為統(tǒng)一的潛在表示,讓模型可以實(shí)現(xiàn)跨模態(tài)學(xué)習(xí)。例如,OpenAI 的 CLIP 模型通過(guò)大規(guī)模圖文對(duì)比學(xué)習(xí),掌握了語(yǔ)言描述與視覺(jué)特征之間的映射關(guān)系。

在更復(fù)雜的場(chǎng)景中,數(shù)據(jù)融合不只是簡(jiǎn)單疊加,還需解決模態(tài)對(duì)齊的難題。比如,語(yǔ)言中的抽象概念如何匹配圖像中的具象特征?Transformer 架構(gòu)的引入為這一挑戰(zhàn)提供了技術(shù)支撐,其自注意力機(jī)制能夠在多模態(tài)間捕捉深層關(guān)聯(lián),使模型具有更強(qiáng)的泛化能力。

從 BERT 到 Vision Transformer,再到多模態(tài)預(yù)訓(xùn)練模型(如 BEiT-3),Transformer 重新定義了 AI 的應(yīng)用范圍。以 DeepMind 的 Perceiver 為例,其通用架構(gòu)適配了語(yǔ)言、視覺(jué)和聲音數(shù)據(jù),展示了強(qiáng)大的模態(tài)遷移能力。

對(duì)比學(xué)習(xí)和遷移學(xué)習(xí)技術(shù)同樣推動(dòng)了多模態(tài) AI 的快速發(fā)展。例如,通過(guò)對(duì)比學(xué)習(xí),模型可以更高效地在模態(tài)間捕捉相關(guān)性,即使在小樣本數(shù)據(jù)下依然保持卓越性能。

而多模態(tài) AI 的想象力,遠(yuǎn)不止于此。

激發(fā)真實(shí)世界理解力

從生成式 AI、自動(dòng)駕駛、具身智能到智能體,多模態(tài)已經(jīng)成為推動(dòng) AI 從 " 單一感知 " 邁向 " 全局理解 " 的核心。行業(yè)分析指出,多模態(tài)技術(shù)的突破正推動(dòng) AI 從工具向生產(chǎn)力轉(zhuǎn)化,并進(jìn)一步拓展商業(yè)邊界。

2022 年及之前,大模型處于單模態(tài)預(yù)訓(xùn)練大模型階段,主要探索文本模式的輸入輸出。

2017 年,谷歌提出 Transformer 架構(gòu),奠定了當(dāng)前大模型的主流算法結(jié)構(gòu)。2018 年,基于 Transformer 架構(gòu)訓(xùn)練的 BERT 模型問(wèn)世,參數(shù)規(guī)模首次突破 3 億。2020 年 6 月 GPT3.0 的發(fā)布,標(biāo)志著 AI 已經(jīng)能夠高水平地生成文字和代碼。隨后,2022 年 7 月,文生圖領(lǐng)域的標(biāo)志性產(chǎn)品 Stable Fusion 問(wèn)世。

2023 年,是大模型發(fā)展進(jìn)程中一道重要的 " 分水嶺 ",其從文本、圖像等單模態(tài)任務(wù)逐漸發(fā)展為支持多模態(tài)的多任務(wù),更為符合人類(lèi)感知世界的方式。大模型公司的比拼重點(diǎn)轉(zhuǎn)移為多模態(tài)信息整合和數(shù)據(jù)挖掘,精細(xì)化捕捉不同模態(tài)信息的關(guān)聯(lián)。

例如,2023 年 9 月,OpenAI 推出最新多模態(tài)大模型 GPT-4V,增強(qiáng)了視覺(jué)提示功能,在處理任意交錯(cuò)的多模態(tài)方面表現(xiàn)突出。

2024 年,OpenAI 推出了首個(gè)文本生成視頻模型—— Sora。相比 Runway、Pika 等主流視頻生成工具,Sora 不僅能準(zhǔn)確呈現(xiàn)細(xì)節(jié),還能理解物體在物理世界中的存在,并生成具有豐富情感的角色,同時(shí)根據(jù)提示、靜止圖像甚至填補(bǔ)現(xiàn)有視頻中的缺失幀來(lái)生成視頻,堪稱(chēng)多模態(tài) AI 領(lǐng)域的一大里程碑。它展現(xiàn)了一個(gè) " 會(huì)預(yù)測(cè)未來(lái) " 的 AI 系統(tǒng)的雛形,讓人們對(duì)通用人工智能的到來(lái)充滿(mǎn)期待。

在提升對(duì)現(xiàn)實(shí)世界的理解方面,深度學(xué)習(xí)為多模態(tài)技術(shù)提供了強(qiáng)大支持。神經(jīng)網(wǎng)絡(luò)架構(gòu)的不斷創(chuàng)新,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像識(shí)別中的成功應(yīng)用、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在自然語(yǔ)言處理中的出色表現(xiàn),為多模態(tài)數(shù)據(jù)的特征提取和處理奠定了基礎(chǔ)。在此基礎(chǔ)上,研究人員進(jìn)一步探索如何將不同模態(tài)的數(shù)據(jù)進(jìn)行融合,開(kāi)發(fā)出了一系列多模態(tài)融合算法。

例如,早期的多模態(tài)融合方法主要是簡(jiǎn)單的特征拼接,即將不同模態(tài)提取的特征向量直接連接在一起,然后輸入到后續(xù)的分類(lèi)或回歸模型中。這種方法雖然簡(jiǎn)單直觀,但未能充分挖掘不同模態(tài)之間的內(nèi)在關(guān)聯(lián)。

隨著技術(shù)發(fā)展,出現(xiàn)了更復(fù)雜的融合策略,如跨模態(tài)注意力機(jī)制、模態(tài)間交互等。基于注意力機(jī)制的融合,能夠讓模型自動(dòng)關(guān)注不同模態(tài)數(shù)據(jù)中重要的部分,并根據(jù)任務(wù)需求進(jìn)行動(dòng)態(tài)融合,充分提高了多模態(tài)融合的效果。這些方法使得模型能夠更好地利用不同模態(tài)之間的互補(bǔ)信息,從而提高任務(wù)的性能。

隨著深度學(xué)習(xí)的不斷發(fā)展,尤其是預(yù)訓(xùn)練模型的興起,也為多模態(tài)技術(shù)帶來(lái)了新的突破。預(yù)訓(xùn)練模型通過(guò)在大量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)到了豐富的知識(shí)表示,使得模型在下游任務(wù)上具備更強(qiáng)的泛化能力。

在這一階段,研究者們提出了多種多模態(tài)預(yù)訓(xùn)練模型,如 BERT-Vision、ViLBERT、LXMERT 等,這些模型在圖像標(biāo)注、視覺(jué)問(wèn)答等任務(wù)上取得了顯著的性能提升。之后,研究人員開(kāi)始嘗試將預(yù)訓(xùn)練思想應(yīng)用于多模態(tài)領(lǐng)域。

通過(guò)在大規(guī)模多模態(tài)數(shù)據(jù)上進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練,模型可以學(xué)習(xí)到不同模態(tài)之間的通用特征表示,然后在具體的下游任務(wù)中進(jìn)行微調(diào),這種方式顯著提升了多模態(tài)模型的性能和泛化能力。

可以看到,多模態(tài)技術(shù)的發(fā)展是 AI 技術(shù)不斷演進(jìn)的必然結(jié)果,它在融合多種模態(tài)數(shù)據(jù)方面取得的重要進(jìn)展,為解決復(fù)雜現(xiàn)實(shí)問(wèn)題提供了更有效的途徑,這也是 AI 企業(yè)紛紛押注多模態(tài)技術(shù)的關(guān)鍵原因。

多模態(tài)到底解鎖了什么?

" 跨模態(tài)任務(wù)需求 + 跨模態(tài)數(shù)據(jù)融合 + 對(duì)人類(lèi)認(rèn)知能力的模擬 " 是 AI 必然走向多模態(tài)的三大因素,我們正見(jiàn)證著 AI 從 " 工具理性 " 向 " 認(rèn)知主體 " 跨越的拐點(diǎn)。

關(guān)于多模態(tài)模型的意義和價(jià)值,一個(gè)言論在業(yè)界廣為流傳:每多一種模態(tài)的解鎖,意味著用戶(hù)滲透率的進(jìn)一步提升。

這句話背后的意義是:只有文字的人機(jī)交互是單一的,是被限制的。人機(jī)交互的未來(lái)必然是多模態(tài)的,AI 需要多模態(tài)理解真實(shí)世界和真實(shí)的人,人也需要 AI 提供文字以外的輸出。

最典型的就是語(yǔ)音交互之于 ChatBot 這個(gè)今天使用最廣泛的 AI 場(chǎng)景。今天越來(lái)越多 ChatBot 類(lèi)的產(chǎn)品都已經(jīng)加入語(yǔ)音交互功能,而在一些特定的使用場(chǎng)景下(比如用豆包等 AI 應(yīng)用練習(xí)英語(yǔ)),語(yǔ)音交互就能極大地提升用戶(hù)的使用體驗(yàn)。

從商業(yè)模式來(lái)看,多模態(tài) AI 主要分為兩種方式。

一種是向企業(yè)用戶(hù)提供 API 接口,以模型即服務(wù)(Model-as-a-Service)的形式,企業(yè)可以根據(jù)自身需求調(diào)用相應(yīng)的多模態(tài) AI 模型進(jìn)行處理。

另一種是將多模態(tài) AI 模型嵌入到自身的產(chǎn)品和服務(wù)中,提供具體的解決方案。這兩種方式都有著巨大的市場(chǎng)潛力,可以應(yīng)用于各個(gè)領(lǐng)域,如機(jī)器人、智能交通、智能制造、智能家居等。

當(dāng)前,人形機(jī)器人作為 AI 技術(shù)與高端制造業(yè)的結(jié)合體,不僅具有高通用性,能適應(yīng)人類(lèi)社會(huì)基礎(chǔ)設(shè)施,還因其性?xún)r(jià)比和廣泛應(yīng)用前景而備受矚目。大模型等技術(shù)進(jìn)步正推動(dòng)人形機(jī)器人的泛化能力和自然語(yǔ)言交互能力快速發(fā)展。

據(jù)高工產(chǎn)業(yè)研究院(GGII)預(yù)測(cè),2026 年全球人形機(jī)器人在服務(wù)機(jī)器人中的滲透率有望達(dá)到 3.5%,市場(chǎng)規(guī)模超 20 億美元,到 2030 年,全球市場(chǎng)規(guī)模有望突破 200 億美元。

在交通領(lǐng)域,隨著多模態(tài)大模型在多種場(chǎng)景中的適用性日益增強(qiáng),市場(chǎng)對(duì)統(tǒng)一管理座艙功能的智能體需求日益增長(zhǎng)。2024 年," 蔚小理 "、吉利等主機(jī)廠相繼推出了 Agent 框架,以語(yǔ)音助手為切入點(diǎn),實(shí)現(xiàn)座艙內(nèi)功能應(yīng)用的統(tǒng)一管理。Agent 服務(wù)框架的推出,不僅統(tǒng)一了座艙功能,還根據(jù)客戶(hù)需求和喜好提供了豐富的場(chǎng)景模式,尤其是支持用戶(hù)定制化場(chǎng)景,加速了座艙個(gè)性化時(shí)代的到來(lái)。

雖然現(xiàn)階段已上車(chē)的 Agent 大部分還停留在助手、陪伴以及具體場(chǎng)景功能列舉層面,但相比于大模型,Agent 擁有更大潛力,具備可激發(fā)的自主性和突出的工具使用能力,更加貼合 " 主動(dòng)智能 " 標(biāo)簽,甚至能夠彌補(bǔ)大模型在實(shí)際應(yīng)用中的限制。

智能家居是目前少數(shù)保持高速增長(zhǎng)的產(chǎn)業(yè)之一。根據(jù) Statista 數(shù)據(jù)預(yù)測(cè),到 2028 年,全球智能家居市場(chǎng)規(guī)模將有望達(dá)到 1544 億美元,并且在 2024 年至 2028 年期間,該市場(chǎng)還將維持 67% 的高復(fù)合年增長(zhǎng)率,這一增長(zhǎng)趨勢(shì)得益于多模態(tài)大模型與家居產(chǎn)品的逐步融合和應(yīng)用。

交互型多模態(tài)大模型的嵌入使智能家電具備更高級(jí)的語(yǔ)音交互能力,這能夠更準(zhǔn)確地識(shí)別消費(fèi)者需求,通過(guò)語(yǔ)音、手勢(shì)和面部表情的自然交互,控制智能家居設(shè)備,甚至提供情感陪護(hù)和輔導(dǎo)孩子作業(yè)的功能,使家庭生活更便捷、更富有互動(dòng)性。

未來(lái),多模態(tài)大模型有望集成于端側(cè)設(shè)備,在手機(jī)端與操作系統(tǒng)和各類(lèi) App 深度融合,可以接收用戶(hù)的自然語(yǔ)言指令或根據(jù)用戶(hù)所處環(huán)境即時(shí)調(diào)取合適的服務(wù)。例如,駕車(chē)時(shí)主動(dòng)開(kāi)啟免提通話并打開(kāi)導(dǎo)航。多模態(tài)大模型甚至可以作為中心樞紐,連接各種生態(tài)服務(wù),如支付、健康監(jiān)測(cè)、交通導(dǎo)航和在線購(gòu)物,形成一個(gè)完整的智能消費(fèi)生活圈。

當(dāng)與 PC 端結(jié)合后,多模態(tài)大模型有望大幅提升企業(yè)的生產(chǎn)力和創(chuàng)造力,甚至可能創(chuàng)造全新的工作和創(chuàng)作方式。多模態(tài)大模型綜合處理視覺(jué)、聽(tīng)覺(jué)以及文本信息,形成了全方位的認(rèn)知系統(tǒng),它作為 AI 助手,能夠?qū)崟r(shí)觀察屏幕上顯示的內(nèi)容,無(wú)論是文檔、圖像還是視頻,并且可以迅速捕捉并解析其中的信息。

這種能力使得它能夠和用戶(hù)進(jìn)行更為自然和流暢的溝通,不再局限于簡(jiǎn)單的問(wèn)答形式,而是能夠參與到更復(fù)雜的對(duì)話中,理解用戶(hù)的意圖,提供更具針對(duì)性的建議,甚至還可以預(yù)測(cè)下一步的需求。

這場(chǎng)技術(shù)進(jìn)化正以不可逆轉(zhuǎn)的趨勢(shì),將 AI 推向智能涌現(xiàn)的臨界點(diǎn)。未來(lái) 5~10 年,結(jié)合復(fù)雜多模態(tài)方案的大模型有望具備更加完備的與世界交互的能力,到那時(shí),一切都將無(wú)比新鮮和令人驚嘆。這不僅讓未來(lái)的圖景更加清晰且真實(shí),也預(yù)示著人機(jī)共生時(shí)代正全面到來(lái)。

相關(guān)標(biāo)簽

相關(guān)閱讀

最新評(píng)論

沒(méi)有更多評(píng)論了

覺(jué)得文章不錯(cuò),微信掃描分享好友

掃碼分享

熱門(mén)推薦

查看更多內(nèi)容
主站蜘蛛池模板: 欧美日韩一区二区在线观看 | 美女张腿男人桶免费视频 | 中国国语毛片免费观看视频 | 日韩一级a毛片欧美区 | 久草中文在线 | 亚洲www视频 | 中文一级国产特级毛片视频 | 成人国产亚洲欧美成人综合网 | 久久免视频 | 99久久精品国产自免费 | 成人午夜精品久久不卡 | 国产情侣自拍网站 | 日产一区二区三区四区 | 欧美成人爽毛片在线视频 | 亚洲一区二区三区四区 | 国产成在线观看免费视频 | 国产一级一级一级成人毛片 | 精品爱爱| 夜色成人性y | 欧美一区=区三区 | 国产精品久久久久久久久久久不卡 | 亚洲精品国产成人中文 | 国产一区二区精品久 | 亚洲综合天堂网 | 日本免费一二区视频 | 久久精品国产三级不卡 | 国语自产精品视频 | 欧美亚洲国产激情一区二区 | 国产欧美一区二区久久 | 欧美精品成人3d在线 | 欧美黄视频 | 日韩美女视频在线观看 | 欧美综合成人网 | 免费国产成人高清在线看软件 | 国产精品毛片久久久久久久 | 夜夜骚视频 | 久久免费精品视频在线观看 | 国产成人免费不卡在线观看 | 九九精品成人免费国产片 | 欧美真人毛片动作视频 | 91老色批网站免费看 |