日本一区二区三区久久-日本一区二区三区久久精品-日本一区二区三区日本免费-日本一区二区三区在线观看视频-国产不卡免费视频-国产不卡视频

關(guān)于ZAKER 合作
極客公園 13小時(shí)前

李想「不想造車(chē)」的背后,其實(shí)是想造「司機(jī) Agent」

五個(gè)月前,李想高調(diào)地宣布了將 All in AI,表示理想要從一家智能汽車(chē)公司,轉(zhuǎn)型邁向一家人工智能科技公司。

而這次,李想帶著全新的 VLA(Vision-Language-Action)模型走到了公眾面前。此前,VLA 已經(jīng)在 3 月的英偉達(dá) GTC 大會(huì)上首次發(fā)布,它是理想汽車(chē)去年在輔助駕駛領(lǐng)域「端到端 +VLM」的雙系統(tǒng)架構(gòu)上進(jìn)化而來(lái)的新架構(gòu)。

智能化,既是理想近年來(lái)最希望打造的標(biāo)簽,也是重點(diǎn)投入研發(fā)的方向。理想 2025 年產(chǎn)品的核心點(diǎn)都主要圍繞智能化升級(jí)升級(jí)展開(kāi),李想曾在內(nèi)部說(shuō):

「理想的智駕原創(chuàng)性,超過(guò)了增程」。

因此,推出全新的 VLA 架構(gòu)模型,李想希望讓輔助駕駛進(jìn)化出類(lèi)似人類(lèi)司機(jī)的能力。在李想看來(lái),VLA 是理想的「司機(jī)大模型」(或「司機(jī) Agent」),他希望這個(gè)模型 / 智能體能像人類(lèi)司機(jī)一樣工作,將來(lái)也能像人類(lèi)司機(jī)那樣創(chuàng)造商業(yè)價(jià)值。

在 demo 演示視頻里,理想的這個(gè)「司機(jī) Agent」展示了和人類(lèi)司機(jī)類(lèi)似的智能能力:不僅具備現(xiàn)有的優(yōu)秀輔助駕駛能力,而且還能直接通過(guò)語(yǔ)音的方式和人類(lèi)駕駛員高效交互。

在通過(guò)高速收費(fèi)站時(shí),直接說(shuō)出「走人工」三個(gè)字,系統(tǒng)就可以從 ETC 收費(fèi)通道轉(zhuǎn)向人工收費(fèi)通道;在日常駕駛和泊車(chē)環(huán)節(jié),也可以通過(guò)「前方掉頭」、「C 區(qū)停車(chē)」、「靠邊停車(chē)」等簡(jiǎn)單指令,調(diào)整行車(chē)或泊車(chē)的路線,達(dá)到了我們?nèi)粘:途W(wǎng)約車(chē)或代駕司機(jī)溝通的水準(zhǔn)。

輔助駕駛再進(jìn)化:從「雙系統(tǒng)」到 VLA

經(jīng)過(guò)了十幾年的發(fā)展,輔助駕駛經(jīng)歷了多次迭代。其架構(gòu)演進(jìn)大致可分為模塊化案(2022 年之前)、端到端感知(2023 年)、VLM+E2E (2024 年)。

總的來(lái)說(shuō),自動(dòng)駕駛大腦的設(shè)計(jì)從「各自為政」的小團(tuán)隊(duì),進(jìn)化到「邊看邊學(xué)」的超級(jí)學(xué)生,再到「常識(shí) + 行動(dòng)」的嘗試。

如今,輔助駕駛又來(lái)到新的十字路口—— VLA。這也是理想 AI Talk 第二季的重點(diǎn)。基于此,李想認(rèn)為,輔助駕駛處于「黎明前的黑暗」,黎明馬上就要來(lái)了。

其實(shí),2025 年 3 月的英偉達(dá) GTC 大會(huì)上,理想就發(fā)布了下一代自動(dòng)駕駛架構(gòu) VLA。這里稍微介紹一下,VLA 最早是由 Google DeepMind 在 2023 年 7 月提出的用于機(jī)器人控制的模型,其以大語(yǔ)言模型為基礎(chǔ),模型在接收攝像頭的原始數(shù)據(jù)和語(yǔ)言指令后,可以直接輸出控制信號(hào),完成各種復(fù)雜的操作。

對(duì)于理想汽車(chē)而言,李想表示,VLA 是一個(gè)「司機(jī)大模型」,它像人類(lèi)司機(jī)一樣工作。同時(shí),李想強(qiáng)調(diào),VLA 的誕生不是突變,而是進(jìn)化。

簡(jiǎn)單說(shuō),VLA 并非拋棄端到端,而是將其作為 VLA 行動(dòng)(A)部分的基礎(chǔ)。只有做好規(guī)則算法,才能知道如何做端到端,只有把端到端做到極致水平,才有機(jī)會(huì)去做 VLA,這個(gè)過(guò)程沒(méi)有捷徑。

他詳細(xì)闡述了訓(xùn)練 VLA 的四個(gè)步驟,這有點(diǎn)像人類(lèi)學(xué)開(kāi)車(chē)的過(guò)程。

VLA 司機(jī)大模型的訓(xùn)練和推理過(guò)程 | 圖片來(lái)源:直播截圖

第一步是預(yù)訓(xùn)練,就像去駕校前先學(xué)交規(guī)、認(rèn)路標(biāo),這一步的目標(biāo)是讓 AI 擁有對(duì)世界和交通的基礎(chǔ)認(rèn)知。理想先訓(xùn)練了一個(gè) VL(視覺(jué)和語(yǔ)言)基座模型。然后,它會(huì)被「壓縮」(蒸餾)成一個(gè)更小、能更快運(yùn)行的模型(約 3.2B 參數(shù)),這樣它才能流暢地跑在汽車(chē)?yán)锏能?chē)端芯片上。

第二步是后訓(xùn)練,像在駕校里跟著教練練車(chē)。工程師讓 AI 觀看大量人類(lèi)司機(jī)開(kāi)車(chē)的視頻,學(xué)習(xí)模仿他們的操作。把會(huì)「看」和「聽(tīng)」的模型,跟學(xué)會(huì)了「行動(dòng)」的模型結(jié)合起來(lái),形成一個(gè)初級(jí)的 VLA「端到端」模型。

第三步是強(qiáng)化訓(xùn)練,像拿到駕照后,在社會(huì)上不斷磨練提升,成為經(jīng)驗(yàn)豐富的「老司機(jī)」。這個(gè)過(guò)程要經(jīng)過(guò)兩個(gè)考驗(yàn):第一, 參考大量人類(lèi)司機(jī)的駕駛數(shù)據(jù)。當(dāng)它做得好時(shí)得到「鼓勵(lì)」,做得不好的時(shí)候,比如讓人類(lèi)接管了,得到「反饋」。

同時(shí),理想汽車(chē)搭建了一個(gè)非常逼真的虛擬「交通世界」,有點(diǎn)像一個(gè)超高水平的模擬器,讓 AI 在里面自己練習(xí)。

最后,有了這個(gè) VLA「司機(jī)大腦」后,理想汽車(chē)還設(shè)計(jì)了一個(gè)「司機(jī) Agent」。用戶(hù)可以像跟你自己的司機(jī)說(shuō)話一樣,用自然語(yǔ)言告訴車(chē)想去哪、怎么開(kāi),Agent 會(huì)把你的指令傳達(dá)給 VLA,讓它去執(zhí)行。

不過(guò),李想也表示,VLA(司機(jī)大模型)能夠解決到全自動(dòng)駕駛,但未來(lái)可能還有效率更高的架構(gòu)。雖然目前的 Transformer 是能力最強(qiáng)的架構(gòu),甚至有機(jī)會(huì)超過(guò)人類(lèi),但它對(duì)算力的要求還是很高。這也意味著 VLA 可能并非終極解決方案,未來(lái)的技術(shù)演進(jìn)仍充滿變數(shù)。

擁抱開(kāi)源,感謝 DeepSeek

DeepSeek 的出現(xiàn),加速了 AI 領(lǐng)域的進(jìn)化,也影響了理想在 AI 領(lǐng)域的研發(fā)進(jìn)程。

在原有的計(jì)劃里,理想原計(jì)劃在今年 9 月先推出一個(gè)足夠好的語(yǔ)音模型(即 VLA 里的「L」部分),在此基礎(chǔ)上再繼續(xù)訓(xùn)練 VLA 模型。DeepSeek 的出現(xiàn)讓理想看到了「站在巨人肩膀上」的機(jī)會(huì)。

據(jù)李想回憶,今年 1 月 DeepSeek R1 模型發(fā)布并開(kāi)源后,他很快就和 CTO 謝炎、基座模型負(fù)責(zé)人陳偉達(dá)成了共識(shí)。團(tuán)隊(duì)內(nèi)部認(rèn)為應(yīng)該以此為基礎(chǔ),加速 VLA 研發(fā)進(jìn)展,并研究如何在芯片上也跑到同樣的訓(xùn)練和推理的效率。

李想說(shuō),公司「擁抱 DeepSeek 的過(guò)程比想象得快」。而更加令人意外的是,李想披露了公司開(kāi)源自研四年的整車(chē)操作系統(tǒng)——理想星環(huán) OS,其核心動(dòng)因并非戰(zhàn)略考量,而是受到 DeepSeek 開(kāi)源精神的鼓舞,「說(shuō)白了純粹是感謝 DeepSeek」。

李想在 AI Talk 中發(fā)表觀點(diǎn) | 圖片來(lái)源:直播截圖

當(dāng)然,AI 的研究和投入也在繼續(xù)。李想說(shuō),2025 年理想購(gòu)買(mǎi)的訓(xùn)練卡比預(yù)期大概「多了 3 倍」。

目前,理想正在訓(xùn)練兩個(gè)基座大模型,分別是:

一個(gè)用于「理想同學(xué)」App 的模型基座,參數(shù)量約為 300B(3000 億),使用場(chǎng)景是用在類(lèi)似豆包、KIMI 的語(yǔ)音模型應(yīng)用上

VL(Vision+Language)模型底座,參數(shù)量大約在 32B(320 億),為 VLA 模型的訓(xùn)練基座

在李想看來(lái),VLA 模型是一條 DeepSeek、OpenAI、Waymo 等公司都沒(méi)有走過(guò)的「無(wú)人區(qū)」,和目前通用語(yǔ)言模型最大的不同之處就在于,訓(xùn)練 VLA 模型,需要加入足夠過(guò)視覺(jué)和語(yǔ)言聯(lián)合的語(yǔ)料,即三維圖像和模型對(duì)世界的理解語(yǔ)義要同時(shí)產(chǎn)生的,而這樣的模型并沒(méi)有原始數(shù)據(jù)。

在春節(jié)之后理想的第一次例會(huì)上,李想將 DeepSeek 的出現(xiàn)比作 Linux 的推出,并表示理想要追逐人工智能的「安卓時(shí)刻」。理想希望可以在專(zhuān)業(yè)和垂直領(lǐng)域里,訓(xùn)練出一個(gè)專(zhuān)用大模型,以提升垂直領(lǐng)域的 AI 能力,并最終交付價(jià)值。

在訪談最后,李想也提到了競(jìng)爭(zhēng)對(duì)手特斯拉。他表示目前特斯拉 FSD 在國(guó)內(nèi)的模型水平,并不代表特斯拉的真實(shí)實(shí)力,「大概在用 V12.5 以前的模型」。但整體來(lái)看,他依然認(rèn)為特斯拉 FSD 系統(tǒng)的基本功很扎實(shí),是理想真正需要學(xué)習(xí)的能力。

「基本功」也是這場(chǎng) AI Talk 中李想反復(fù)提到的高頻詞匯。他認(rèn)為「不可能不做前面的積累,直接吃到第 10 個(gè)包子」。他認(rèn)為在內(nèi)卷的環(huán)境下,更要重視基本功,否則創(chuàng)新會(huì)變成曇花一現(xiàn)。

而人工智能,顯然是當(dāng)下李想和他的團(tuán)隊(duì)認(rèn)可并正在大力投入的那個(gè)方向。

相關(guān)標(biāo)簽

相關(guān)閱讀

最新評(píng)論

沒(méi)有更多評(píng)論了
極客公園

極客公園

這里匯聚著優(yōu)秀的產(chǎn)品觀察報(bào)道、高質(zhì)量的線下活動(dòng)

訂閱

覺(jué)得文章不錯(cuò),微信掃描分享好友

掃碼分享
主站蜘蛛池模板: 久久草在线看 | 久久欧美精品欧美久久欧美 | 欧美成人午夜不卡在线视频 | 欧美激情特级黄aa毛片 | 国产欧美精品综合一区 | 欧美成人小视频 | 97超级碰碰碰碰在线视频 | 欧美一区二区不卡视频 | 天天爽夜夜操 | 久久精品久久精品 | 亚洲久久久| 九九99香蕉在线视频网站 | 日本一区二区高清不卡 | 亚洲乱人伦精品图片 | a级高清 | 国产第三区 | 亚洲精品人成网线在线 | 九九视频在线观看6 | 超级碰碰碰视频视频在线视频 | 欧美一级特黄刺激爽大片 | www.亚洲黄色 | 六月丁香婷婷天天在线 | 中文字幕亚洲精品 | 亚洲国产精品免费 | 亚洲aⅴ男人的天堂在线观看 | 亚洲久久网站 | 自拍网在线 | 国产91一区二这在线播放 | 久久久精品视频免费观看 | 正在播放国产精品 | 亚洲欧美成人综合久久久 | 做爰成人五级在线视频| 中文一区二区在线观看 | 亚洲午夜久久久久国产 | 日本人的色道免费网站 | 中文一区在线观看 | 精品视频久久 | 男人的天堂亚洲 | 国产精品久久久久久久 | 国产露脸3p普通话 | 日韩中文字幕免费在线观看 |