北京時間 3 月 19 日凌晨,站在圣何塞 GTC 大會的舞臺上,連黃仁勛自己都調侃:GTC 是 AI 屆的超級碗。
幾周以來,外界已經對黃仁勛在 GTC 的演講萬分期待。這個演講可不好做,在 DeepSeek 的沖擊之下,英偉達今年的股價已經下跌了 12%。
這不再是發布新產品,高喊 AI 就是未來就可以完成任務的演講,今年,黃仁勛需要回答很多問題。
而這場持續了兩個半小時的演講也的確和往年有很大的不同,黃仁勛在一開始就花了很長的時間去解釋為什么推理時代縮放定律沒有死、為什么英偉達依然非常重要。
而后,他不僅拿出了 Blackwell 的超大杯產品,還透露了下一代芯片,甚至下下代架構,時間一直蔓延到 2028 年。壓軸出場的,則和黃仁勛勾畫的 AI 發展路線圖中的最后一站 " 物理 AI" 相關。
黃仁勛拯救了英偉達股價嗎?至少從當日來看,截至收盤英偉達股價跌了 3.43%,總市值縮水至 2.82 萬億美元。
到底是市場還需要幾天時間消化,還是黃仁勛 " 游說 " 失敗,還得等等看。
演講要點:
1、發布超大杯 Blackwell Ultra,性能提升 1.5 倍。
2、下一代 AI" 超級芯片 "Vera Rubin,計劃 2026 年底推出,并透露下下代芯片架構為 Feynman,計劃 2028 年推出。
3、AI 工廠的操作系統 Dynamo,推理框架,資源利用最大化,搭配 Blackwell 強上加強。
4、推出 "AI 超級電腦 "DGX Spark、DGX Station,提高本地運行大型 AI 模型的能力。
5、宣布網絡組件的最新動作,推出 Spectrum X 和 Quantum X 交換機。
6、發布首個開放式人性機器人基礎模型 Isaac GROOT N1;并宣布與谷歌 DeepMind 和迪士尼研究院合作開發 Newton 開源物理引擎。
一、現場 " 開課 ",黃仁勛:你們真的都搞錯了
自從號稱訓練只用了幾百萬美元的 DeepSeek 推理模型問世,世界就沒有停止對英偉達的質疑。
起先,黃仁勛不語。然后,他開始發聲,在采訪中和財報會議上表示推理時代仍然需要大量計算,仍然需要英偉達的力量。
這次,他終于把這點攤開揉碎地說明了一番。
在發布會上,老黃拿出例子,讓 Llama3.3(LLM 的代表)和 DeepSeek R1(推理模型的代表)回答同一個問題:
" 在我的婚禮上,需要 7 個人圍坐同一桌。我的父母和岳父岳母不能挨著坐。此外,我妻子堅稱她在我左手邊的話,拍照更好看。同時,我需要坐在伴郎身邊。我們怎么安排座位?如果我們邀請牧師和我們坐一起呢?"
看完這個問題,大部分人可能已經頭大了。要回答它,不僅要識別其中包含多少個不同的需求,還要同時滿足所有需求。有意思的是,最后又有一個進一步的問題,需要先回答主問題再補充這個問題的答案。
Llama 3.3 非常簡單粗暴,回答得很快,只用了 439 個 tokens。但是,它的回答并不正確,未能滿足所有要求。快、省但對于提問的人來說無用。
DeepSeek R1 則反復思考,嘗試了很多可能,反復檢驗答案,最終消耗了 8559 個 tokens,才最終給出了答案。時間久,消耗大,但是給出的答案準確。
兩相對比,DeepSeek R1 比 Llama 3.3 多生成了 20 倍的 tokens,計算需求高出 150 倍。
" 大模型推理是一種極限計算。" 老黃表示。
通過這個對比,老黃很直觀地告訴大家:推理模型也許預訓練的時候消耗少,但推理起來可是實打實的吸金獸啊。英偉達 GTC 的官方博文中,把 Tokens 視為 AI 的語言和貨幣。
" 去年,關于擴展定律 Scaling Law,全世界幾乎都預測錯了。" 老黃在臺上再次強調。他進一步指出,如今擴展定律從一個變成了三個:預訓練、后訓練(微調)和推理。
黃仁勛此前就在財報會議上表示,Blackwell 就是為推理而生的,這次演講中在說清楚推理模型為什么需要更多算力之后,黃仁勛也拿出圖表,展開講了講這一點。
以 Blackwell 和 Hopper 做對比,都是 1 兆瓦功耗,Hopper 數據中心每秒生成 250 萬 tokens。Blackwell 數據中心提高了 25 倍,如果是推理模型,則比 Hopper 好 40 倍。
以前老黃總說,(英偉達 AI 芯片)買得越多越省錢,現在他更進一步,告訴大家,買得越多越賺錢。
二、軟硬兼施,Blackwell 超大杯與 "AI 工廠操作系統 "Dynamo
花了 40 分鐘講明白為什么英偉達依然能打,為什么說 Blackwell 是為推理而生之后,黃仁勛當然還得說說新產品。
首先是 Blackwell Ultra,專為 AI 推理時代而打造,Ultra 的后綴大家也不陌生了,超大杯。
" 我們專為這一刻設計了 Blackwell Ultra,一個多功能平臺,(利用它)可以高效地進行預訓練、后訓練和推理。"
其中 GB300 NVL72 在一個機架規模設計中連接了 72 個 Blackwell Ultra 芯片,并包含 36 個基于 Arm Neoverse 的 Grace CPU。較上一代性能提升 1.5 倍,與 Hopper 相比收入潛力提高 50 倍。還是以 DeepSeek R1 為例,老款 Hopper 運行這個模型時每秒只能處理 100 tokens,而 GB300 NVL72 每秒能處理 1000 tokens。
而 HGX B300 NVL16 系統相比于 Hopper 一代,推理速度提升 11 倍,計算能力提升 7 倍,內存大 4 倍。
英偉達一直都有軟硬兼施的策略,此前也針對自家的芯片做了不少優化(不過,DeepSeek 的開源周展示的一些優化甚至比英偉達還強),這次黃仁勛也同步官宣了開源推理框架 Dynamo。
黃仁勛將之稱為 "AI 工廠的操作系統 "。這樣說可能有點抽象,具體來說,Dynamo 像一個交通指揮官,幫助 GPU 之間實現更好的通信。對思考和生成可以進行獨立優化,高效利用資源。如此一來,(還是回到演講開頭強調的 token 問題上)每秒就能產生更多 token 了。
不過,黃仁勛也表示,Hopper 雖然也可以用 Dynamo 優化,但是效果不會那么明顯。
為推理而生的 Blackwell 再加上為推理優化而生的 Dynamo,就是強上加強,DeepSeek R1 的吞吐量一下提高 30 倍。
三、下一代更好:2028 年還不夠遠,黃仁勛勾勒 AI 發展路徑圖
除了現在,黃仁勛當然還得談到未來。
英偉達下一代 AI 芯片 Vera Rubin 首次走到臺前,黃仁勛介紹,該名稱來源于天文學家 Vera Rubin(以暗物質研究著稱)。
其中 CPU Vera 內容容量是前代的 4 倍多,內存帶寬是前代的 2 倍多,而 GPU Rubin 講配備 299GB 的 HRM4。
用老黃的話說就是 " 幾乎所有細節都是新的 "。
黃仁勛也預告了 Vera Rubin 的超大杯,Rubin Ultra,對比 GB300 性能提升 13 倍,預計 2027 年下半年發貨。
除此之外,連 Vera Rubin 之后的下一代 AI 芯片架構也被揭露,它被命名為 Feynman,這個名字同樣取自于一位科學家,對量子計算領域有突出和貢獻的 Richard Phillips Feynman。黃仁勛預告,Feynman 甲溝將于 2028 年登場。
此外,值得注意的是,在演講一開始,黃仁勛給出了 AI 的發展路線圖,從 2012 年深度學習突破的起點 AlexNet 開始,經歷 Perception AI(感知 AI,這個階段 AI 主要用于理解數據,如識別語音、圖片等)、Generative AI(生成式 AI,也就是現階段的以 ChatGPT 為代表的技術)。
而最終,AI 的終極目標是 Physical AI(物理 AI),實現從軟件到硬件、從虛擬到現實的跨越。讓 AI 具備物理行動能力,如機器人和自動駕駛技術的發展。
英偉達作為 AI 計算的核心玩家,顯然希望引領這一進程。
對物理 AI 這部分的具體展開,在黃仁勛的此次演講中占比并不算高,但作為壓軸出現,足見其重要程度。
舞臺上出現了《星球大戰》中的小機器人 Blue,它在舞臺上走來走去、搖頭晃腦,看起來充滿好奇心,不得不說看起來就非常靈動。
" 通用性機器人的時代已經到來。"
四、老黃委屈,英偉達推出好產品還遠遠不夠
英偉達的高速增長也一直伴隨著 " 泡沫 " 擔憂,很長的一段時間,這家公司不斷推出新的產品,但市場波動時有發生。很多次財報發布時,明明業績全線飄紅,黃仁勛也大表信心,股價還是會抖三抖。
" 我們發了新東西,但人們立刻就會說,好,然后呢?這放在任何公司身上都不是正常的。"
這次,黃仁勛很少見地在 GTC 的舞臺上倒了點苦水:" 這不是買個筆記本電腦 "。他表示,這既需要計劃,也需要資源和人,規劃是以幾年為計的。
也許這也解釋了為什么黃仁勛這次演講持續了兩個半小時(去年不到兩小時),為什么他一口氣掏出這么多成果,為什么 AI 芯片連 2028 年的下下代都透底了,為什么在最后拿出了 AI 發展路徑的最后一站 " 物理 AI" 的最新成果。
老黃這次該講的、能講的都講了,盡力了。
至于人們還會不會問 " 然后呢 ",他也管不了了。
本文來自微信公眾號:直面 AI,作者:小金牙