「AI 屆春晚」過去以來一直是 GTC 的外號之一,但在 GTC 2025 的開幕主題演講中,這個梗被英偉達創始人、愛穿皮衣的老黃「偷了」。 「我覺得 GTC 已經變成了 AI 界的超級碗」
黃仁勛這樣介紹 GTC 的盛況。「但在這里,AI 會讓我們每個人都成為贏家」。
但面對近期股價的數次暴跌,尤其是以 DeepSeek-R1 為代表的、對業內「我們真的需要這么多 GPU 嗎」的質疑,GTC 作為「AI 春晚」,英偉達就必須拿出更多真的能鎮住場子的「硬貨」出來。
雖然不知是否也是受到股價影響,今天老黃的口條,相比以往明顯要「磕巴」了不少,但他在 150 分鐘內,接連給從 AI Agent 到數據中心的 AI 芯片、再到具身智能的多個行業生態,再次指明了未來。
再一次地,英偉達看到了 AI 的未來,現在,他們需要讓全世界一起相信。
Agentic 拯救英偉達
「It's all about Tokens」。
不同往屆 GTC 上來先介紹英偉達的硬通貨,今天的開場,老黃用 40 分鐘解讀了:Agentic AI 時代,英偉達的立身之本——越來越高效地處理 tokens(詞元)。單位時間內能處理的 tokens 百倍萬倍增長,同時單位算力成本和能耗下降。
在他看來,英偉達踩中 AI 風口的十幾年,AI 已經經歷了三代技術范式的轉移。最早是判別式 AI(語音識別、圖像識別),接著是生成式 AI,然后就是當下我們身處的 Agentic AI,未來會是影響物理世界的 Physical AI。
每一代 AI 技術遷移,計算的方式都會發生改變。
從 AlexNet 到 ChatGPT,是從檢索的計算方式轉變為生成的計算方式。
而當 AI 從 ChatGPT 那種靠預測下一個 tokens、大概率出現幻覺的生成式 AI,邁向 Deep Research、Manus 這樣的 agentic AI 應用時,每一層計算都不同,所需要的 tokens 比想象的多 100 倍。因為在 Agentic AI 應用中,上一個 token 是下一個 token 生成時輸入的上下文、是感知、規劃、行動的一步步推理。
此刻,Agentic AI 就是我們現在所處的時代,AI 正在經歷一個新的拐點,它變得越來越智能、應用越來越廣泛,同時也需要更多的算力來支持它。
老黃用同一段提示詞下,代表兩種技術范式的開源模型—— Llama3.3 和 Deepseek-R1 所消耗的 tokens 舉例說明,以強化學習為主導的推理類應用,消耗了越來越多的 tokens、同時也讓 AI 應用也變得越來越可用。
這段提示詞是:「在我的婚宴上,需要 7 個人圍著一張桌子坐,我的父母和岳父岳母不應該坐在一起。而且,我媳婦堅持說她坐在我左邊照相時會更好看,但同時我需要坐在伴郎旁邊。我們這一輪怎么坐?如果我們邀請牧師和我們坐在一起呢?」
如上圖左邊,Llama3.3 作為大語言模型,用不到 500 個 tokens 快速回答,但安排的客人座位并不滿足要求。對比之下,右邊的 R1 作為推理模型,用掉 8000 多個 tokens 得出了正確答案。
差別在于,左邊的大語言模型只嘗試了一次,右邊的推理模型嘗試了所有不同的可能性,然后反思、驗證了自己的答案。而且推理模型需要更多的計算,因為模型更復雜。R1 的尺寸是 6800 億個參數,它的下一代版本可能有數萬億個參數。
更進一步,Agentic AI 應用是無數次調用類似 DeepSeek-R1 做推理的過程,需要的計算只會更多。這也是為什么 ChatGPT 可以免費、Deep Research 和 Operator 這種 agent 免費不起的原因(當前 OpenAI 分別以 20 美元、200 美元的價格提供服務)。
用預訓練放緩來審判英偉達還是太早了,因為,Scaling Law(縮放定律)的故事還沒有講完。
老黃表示,除了預訓練和后訓練(微調),測試時的 Scaling Law 才剛剛開始。(指模型推理階段,動態分配計算資源以提升性能。例如,根據問題復雜度自動延長「思考時間」,或通過多次推理生成多個候選答案并擇優輸出)
在英偉達 GTC 的一篇官方博文中,Tokens(詞元)被視為 AI 的語言與貨幣。它是 AI 在訓練和推理過程中處理的數據單位,用在預測、生成和推理的每一個場景。
在老黃看來,加速 AI 工作負載的新型數據中心「AI 工廠」,就是要高效地處理這些 tokens,將其從 AI 語言轉換為 AI 貨幣——即智能。通過軟硬一體優化,以更低的計算成本處理更多 tokens。
如此一來,當更復雜、智能的推理模型,需要更快、更多地吞吐 tokens 時,如何能夠有一套軟硬兼施的計算系統讓它更加高效,就成為 AI 應用能不能賺錢的關鍵。
這就是 Agentic AI下,新黃氏定律曲線。
而要想達到「Revenue」那個切面、讓 AI 應用實現商業化閉環,還得買英偉達,依舊是「買得多省得多」——不,現在是「買得多,賺得多」。
「AI 工廠」的操作系統—— Dynamo
不久前,最了解英偉達的「DeepSeek 靠軟硬一體優化實現了 550% 的理論利潤率」新聞刷屏。別忘了,了解英偉達的,也包括他自己。DeepSeek 在 Infra 上的彈藥,老黃也給你配齊了!
英偉達此次推出了一個新的「AI 工廠」引擎的操作系統,Dynamo。有了它,tokens 的吞吐和延遲還能大幅優化!
為了讓一個更大的模型,更高效地產出更多 tokens,本身已經成為了一個工程學問題。如何合理利用流水線并行、張量并行、專家并行、在途批量化、pd 分離、工作負載管理,如何管理 KV cache,各家都拿出了不同的方案。
英偉達此次也推出了自己的方案,Dynamo。黃仁勛把這個推理服務庫比作新時代的 VMware,能夠自動編排如何讓 AI 在推理時代跑的更好——每秒能產生更多 tokens。
接下來黃仁勛簡直在直接對需要采購英偉達的數據中心喊話了:未來的每一個數據中心都會受到功耗的限制。你的營收也會受到功耗的限制,你能使用的電力就能推算出潛在營收。
采用 Blackwell,你在同樣電力下,能收獲更好的性能;再加上Dynamo,Blackwell 將能進一步優化—— Hopper 也能優化,但是沒那么多。
按照英偉達的說法,使用 Dynamo 優化推理,能讓 Blackwell 上的 DeepSeek-R1 的吞吐量提升 30 倍。Dynamo 也完全開源。
黃仁勛直接幫企業算起了賬:在同等功耗下,Blackwell 的性能比 Hopper 高出 4 — 5 倍的幅度。在「推理模型」的測試里,Blackwell 的性能大約是 Hopper 的 40 倍。
同樣的 100 兆瓦數據中心,使用 H100 需要 1400 個機架,每秒可以生產 3 億個 token,使用 GB200,只需要 600 個機架,每秒可以產生 120 億個 token。
老黃:你買的越多,省的越多!
不只有 Blackwell「超大杯」,還有光芯片落地
在硬件領域,老黃還宣布了其 Blackwell AI 工廠平臺的下一個演進版本———— Blackwell Ultra,旨在進一步提升 AI 推理能力。
與現存的 Blackwell 不同,據老黃介紹,Blackwell Ultra 專為 AI 推理而設計的:在 DeepSeek R1 發布之后,目前 OpenAI o1 與 Google Gemini 2.0 Flash Thinking 都是已經上市的推理模型產品。
Blackwell Ultra 具體包含 GB300 NVL72 和 HGX B300 NVL16 系統,其 AI 性能比其前代產品高出 1.5 倍。GB300 NVL72 在一個機架規模設計中連接了 72 個 Blackwell Ultra GPU 和 36 個基于 Arm Neoverse 的 NVIDIA Grace CPU。與 Hopper 一代相比,HGX B300 NVL16 在大型語言模型上提供了快 11 倍的推理速度,多 7 倍的計算能力和 4 倍的內存。同樣支持一道發布的 NVIDIA Dynamo 推理框架。
包括 AWS、谷歌云和微軟 Azure 在內的主要科技公司和云服務提供商,將從 2025 年下半年開始提供由 Blackwell Ultra 驅動的實例。
除了 Blackwell Ultra,英偉達還公布了其 2026 年和 2027 年數據中心路線圖的更新,其中就包括即將推出的下一代 AI 芯片 Rubin(以天文學家 Vera Rubin 命名)與 Rubin Ultra 的計劃配置。
Rubin NVL144 機架,將與現有的 Blackwell NVL72 基礎設施直接兼容。而 Rubin Ultra 的整個機架將被新的布局 NVL576 取代。一個機架最多可容納 576 個 GPU。
除了這些相對枯燥的芯片迭代,英偉達還第一次公開了其光芯片在 AI 計算領域的進展,老黃將其稱之為:
「下一代人工智能的基礎設施」
硅光芯片具有高運算速度、低功耗、低時延等特點,且不必追求工藝尺寸的極限縮小,在制造工藝上,也不必像電子芯片那樣嚴苛,必須使用極紫外光刻機,也就是因為「芯片戰爭」,被大眾所熟知的 EUV。
目前,英偉達并未直接將光芯片技術用戶 AI 芯片上,而是與臺積電(TSMC)合作,采用臺積電的硅光子平臺 Compact Universal Photonic Engine ( COUPE ) ,該平臺使用臺積電的 SoIC-X 封裝技術,同時結合了電子集成電路(EIC)與光子集成電路(PIC)。打造兩款名為 Spectrum-X 和 Quantum-X 采用硅光子技術的交換機。
隨著「人工智能工廠」在世界各地興建,能耗與運營成本,已經成為困擾巨型數據中心繼續拓展的關鍵問題;因此英偉達也在用硅光子技術,來嘗試進一步優化現有的巨型數據中心。
這些也正是硅光子技術大顯身手的場景,硅光子芯片有潛力徹底改變數據處理速度,同時加快推動量子計算技術的發展。同時新光子技術還將為數據中心的 GPU 集群節省數兆瓦的能源。
「人工智能工廠是一種具有極端規模的新型數據中心,網絡基礎設施必須進行改造以跟上步伐。」黃仁勛這樣介紹硅光子芯片在數據中心的應用前景。
據英偉達公開的信息,Spectrum-X 提供 100Tb/s 的總帶寬,總吞吐量為 400Tb/s,并且提供每端口最高 1.6Tb/s 的速度——是目前頂級銅纜傳輸最快速度的兩倍),連老黃自己都吐槽「這段介紹里實在是太多 TB 了」。
Quantum-X 光子 InfiniBand 交換機將于 2025 年晚些時候上市,而 Spectrum-X 光子以太網交換機計劃于 2026 年發布。
最后,老黃還宣布了在 Rubin 之后的下一代 AI 芯片的架構命名 Feynman;這個名稱源自對量子計算領域有著重要貢獻的科學家 Richard Phillips Feynman,他同時也是現代量子計算機概念的奠基人,于 20 世紀 80 年代提出了量子計算機的概念。
根據老黃公布的路線圖,Feynman 架構將于 2028 年登場——或許到那個時候,我們真的能看到量子計算技術出現重大突破了。
英偉達機器人生態完整成型
去年老黃在 GTC 上,伸出手臂,和一排人形機器人站在一起,已經成為經典一幕,
而今年,仿真數據和機器人,仍然出現在 GTC 的各個角落中。甚至在演講的一開始,老黃的講稿中,直接就把物理 AI 放在了 AI 發展的最高點上。
不過,在整個 GTC 中,單就時長而言,涉及到物理 AI 的比重,并沒有想象中的高。自動駕駛部分和機器人部分的介紹加在一起,可能不足半個小時。
雖然時長不長,英偉達此次的發布,卻仍然讓人看到了英偉達的野心。
對于所有 AI 而言,數據、算法和算力,都是最重要的要素。
我們熟悉的生成式 AI,是在海量的互聯網文字和視頻數據中訓練出來的,英偉達的貢獻,更多的在算力方面。
而走到物理 AI,英偉達卻是想在數據、算法、算力上全方面發力,一個產業地圖已經呼之欲出。
在算力上,英偉達有之前發布的 Orin 和 Thor 芯片。
在數據上,英偉達也是重要的貢獻者。物理 AI 強調讓 AI 能夠理解物理世界,而世界在過去并沒有像積累文字和視頻數據一樣,積累足夠多的 3D 環境數據。要大量產生數據,還得看英偉達推動的仿真數據的進展。
而通過幾屆 GTC 下來,英偉達已經全面補齊了數據的生產流程:
Omniverse 數字孿生環境,相當于一個超強的 3D 編輯器,能夠生成逼真的場景和物品。開發者可以根據不同的領域、機器人類型和任務,整合真實世界的傳感器數據或示范數據。
Cosmos 模型訓練平臺,相當于一個專門為汽車和機器人搭建的虛擬世界,利用 Omniverse 訓練 Cosmos,能夠讓 Cosmos 生成無限多樣的虛擬環境,創建既受控、又具備系統性無限擴展能力的數據。
兩者結合,就能產出無限多各種各樣環境、光線、布景的虛擬仿真數據。正如下圖所示,Omniverse 中的機器人呈糖果色,主打與現實呈現數字孿生,而 Cosmos 中的布景則可以完全變換,生成不同的布景。
而針對人形機器人,英偉達還特別推出了一系列其他的工具,比如今年主推的藍圖(blueprint)工具中的 Mega,就可以測試大規模的機器人部署的效果。
英偉達希望人形機器人的開發者能夠先采集一部分現實世界的數據,導入 Omniverse 里面,然后利用 Cosmos,將這部分現實世界的數據轉換成多樣化的虛擬數據,直接導入英偉達的 Issac Lab 中進行后期訓練——或者模仿學習復制行為,或者強化學習在試錯中學習新技能。
在落地更快的自動駕駛領域,這種 Ominiverse 和 Cosmos 相互依仗的數據能力已經初見成效。此次的 GTC,英偉達宣布通用汽車(GM)已選擇與英偉達合作,共同打造未來的自動駕駛車隊。除了對利用仿真環境對工廠和汽車的設計進行改進之外,英偉達還將幫助通用汽車改進智駕體驗。
其中,通用汽車重點看中的,應該就是 Cosmos 的整套端到端的 AI 訓練體系。3D 合成數據生成(3D Synthetic Data Generation)能夠通過 Omniverse,將日志數據轉化為高精度 4D 駕駛環境,結合地圖和圖像生成真實世界的數字孿生,包括像素級的語義分割。Cosmos 再通過這些數據擴展訓練集,生成更多準確且多樣化的駕駛場景,縮小仿真與現實(sim-to-real)的差距。
同時 Cosmos 為模型訓練也做了專門的優化,可以進行模型蒸餾和閉環訓練。
而落地更慢的人形機器人領域,在去年到今年的 GTC 之間,我們甚至看到英偉達在算法上,也在發力。
在去年發布了 GR00T 模型之后,今年英偉達發布了 GR00T N1 模型。英偉達宣布這是全球首個開放的、完全可定制的通用人形機器人推理與技能基礎模型。
Groot N1 基于合成數據生成與仿真學習的技術基礎,采用了「快思考與慢思考」的雙系統架構。其中,「慢思考」系統讓機器人能夠感知環境、理解指令,并規劃正確的行動,而「快思考」系統則將規劃轉換為精準、連續的機器人動作。
Groot N1 本身并不是一個重大的技術突破——之前 FigureAI 的 Helix 等模型,都是采取了類似的雙系統架構。
英偉達很明顯,希望的是通過將一套先進的模型開源,再加上完整的合成數據生成與機器人學習管道,人形機器人開發者可以在全球各個行業的不同環境和任務場景中對 Groot N1 進行后期訓練——正如 DeepSeek 對人工智能產業的帶動一樣。
英偉達在機器人領域的進展似乎一直沒有停歇,一直在不斷補齊產業鏈上的每一個空缺,速度驚人。似乎要讓機器人開發,變得像目前的 AI 應用開發一樣容易,才能停歇。
專門針對機器人的研發,今年英偉達還與 DeepMind、迪士尼研究院(Disney Research)共同合作,聯合推出了一款新的物理引擎 Newton。
當前的大多數物理引擎都是針對特定需求設計的,例如大型機械模擬、虛擬世界或電子游戲等,而機器人需要的,是能夠精確模擬剛體、軟體材料,支持觸覺反饋、時間序列技能學習、執行器控制,基于 GPU 加速,從而在超實時的虛擬世界中,以驚人的速度訓練 AI 模型的物理引擎。
在演講的結束,一款小小的 Blue 機器人登臺亮相了。Blue 機器人內置了兩個英偉達芯片,而它的訓練,則是完全是在英偉達的建設的訓練體系和 Newton 引擎中,通過實時模擬完成的。
英偉達對于機器人的投入看來不會停止,機器人演示不斷出現小故障,搶走老黃的風頭,似乎也將成為接下來幾年英偉達 GTC 經常性的看點了。
在 GTC 主演講結束之前,老黃在視頻播放的間隙,擺了一個 Pose。你可以說是隨性,但從某種意義上來看,這個經典畫面——明顯是名畫「創造亞當」的一個鏡像——可能會在以后 AI 科技的歷史中不斷出現。