日本一区二区三区久久-日本一区二区三区久久精品-日本一区二区三区日本免费-日本一区二区三区在线观看视频-国产不卡免费视频-国产不卡视频

關(guān)于ZAKER 合作
愛范兒 36分鐘前

剛剛,黃仁勛甩出三代核彈 AI 芯片!個人超算每秒運算 1000 萬億次,DeepSeek 成最大贏家

英偉達 GTC 大會已經(jīng)成了 AI 界超級碗,沒有劇本也沒有提詞器,中途黃仁勛被線纜卡住,反而是這場高濃度 AI 發(fā)布會里最有人味的片段,在當今提前基本提前彩排或錄播的科技發(fā)布會里已經(jīng)很稀缺了。

剛剛,黃仁勛再次發(fā)布了全新一代核彈級 AI 芯片,不過這場發(fā)布會的還有個隱藏主角—— DeepSeek。

由于智能體 AI(Agentic AI)和推理能力的提升,現(xiàn)在所需的計算量至少是去年此時預估的 100 倍。

推理成本效率給 AI 行業(yè)帶來影響,而不是簡單地堆積計算能力,成為貫穿這場發(fā)布會的主線。英偉達要變成 AI 工廠,讓 AI 以超越人類的速度學習和推理。

推理本質(zhì)上是一座工廠在生產(chǎn) token,而工廠的價值取決于能否創(chuàng)造收入和利潤。因此,這座工廠必須以極致的效率打造。

黃仁勛掏出的英偉達新「核彈」也在告訴我們,未來的人工智能競爭不在于誰的模型更大,而在于誰的模型具有最低的推理成本和更高推理的效率。

除了全新 Blackwell 芯片,還有兩款「真 · AI PC」

全新的 Blackwell 芯片代號為「Ultra」,也就是 GB300 AI 芯片,接棒去年的「全球最強 AI 芯片」B200,再一次實現(xiàn)性能上的突破 .

Blackwell Ultra 將包括英偉達 GB300 NVL72 機架級解決方案,以及英偉達 HGX B300 NVL16 系統(tǒng)。

Blackwell Ultra GB300 NVL72 將于今年下半年發(fā)布,參數(shù)細節(jié)如下:

1.1 EF FP4 Inference:在進行 FP4 精度的推理任務(wù)時,能夠達到 1.1 ExaFLOPS(每秒百億億次浮點運算)。

0.36 EF FP8 Training:在進行 FP8 精度的訓練任務(wù)時,性能為 1.2 ExaFLOPS。

1.5X GB300 NVL72:與 GB200 NVL72 相比,性能為 1.5 倍。

20 TB HBM3:配備了 20TB HBM 內(nèi)存,是前代的 1.5 倍

40 TB Fast Memory:擁有 40TB 的快速內(nèi)存,是前代的 1.5 倍。

14.4 TB/s CX8:支持 CX8,帶寬為 14.4 TB/s,是前代的 2 倍。

單個 Blackwell Ultra 芯片將和前代一樣提供相同的 20 petaflops(每秒千萬億次浮點運算) AI 性能,但配備更多的 288GB 的 HBM3e 內(nèi)存。

如果說 H100 更適合大規(guī)模模型訓練,B200 在推理任務(wù)中表現(xiàn)出色,那么 B300 則是一個多功能平臺,預訓練、后訓練和 AI 推理都不在話下。

英偉達還特別指出,Blackwell Ultra 也適用于 AI 智能體,以及用于訓練機器人和汽車自動駕駛的「物理 AI」。

為了進一步增強系統(tǒng)性能,Blackwell Ultra 還將與英偉達的 Spectrum-X 以太網(wǎng)和英偉達 Quantum-X800 InfiniBand 平臺集成,為系統(tǒng)中的每個 GPU 提供 800Gb/s 的數(shù)量吞吐量,幫助 AI 工廠和云數(shù)據(jù)中心能夠更快處理 AI 推理模型。

除了 NVL72 機架,英偉達還推出了包含單個 GB300 Blackwell Ultra 芯片的臺式電腦 DGX Station。Blackwell Ultra 之外,這個主機還將配備 784GB 的同一系統(tǒng)內(nèi)存,內(nèi)置 800Gbps 英偉達 ConnectX-8 SuperNIC 網(wǎng)絡(luò),能夠支持 20 petaflops 的 AI 性能。

而之前在 CES 2025 展示的「迷你主機」Project DIGITS 也正式被命名為 DGX Spark,搭載專為桌面優(yōu)化的 GB10 Grace Blackwell 超級芯片,每秒可提供高達 1000 萬億次 AI 計算操作,用于最新 AI 推理模型的微調(diào)和推理,包括 NVIDIA Cosmos Reason 世界基礎(chǔ)模型和 NVIDIA GR00T N1 機器人基礎(chǔ)模型。

黃仁勛表示,借助 DGX Station 和 DGX Spark,用戶可以在本地運行大模型,或者將其部署在 NVIDIA DGX Cloud 等其他加速云或者數(shù)據(jù)中心基礎(chǔ)設(shè)施上。

這是 AI 時代的計算機。

DGX Spark 系統(tǒng)現(xiàn)已開放預訂,而 DGX Station 預計將由華碩、戴爾、惠普等合作伙伴于今年晚些時候推出。

下一代 AI 芯片 Rubin 官宣,2026 年下半年推出

英偉達一直以科學家的名字為其架構(gòu)命名,這種命名方式已成為英偉達文化的一部分。這一次,英偉達延續(xù)了這一慣例,將下一代 AI 芯片平臺命名為「Vera Rubin」,以紀念美國著名天文學家薇拉 · 魯賓(Vera Rubin)。

黃仁勛表示,Rubin 的性能將達到 Hopper 的 900 倍,而 Blackwell 相較 Hopper 已實現(xiàn)了 68 倍的提升。

其中,Vera Rubin NVL144 預計將在 2026 年下半年發(fā)布。參數(shù)信息省流不看版:

3.6 EF FP4 Inference:在進行 FP4 精度的推理任務(wù)時,能夠達到 3.6 ExaFLOPS(每秒百億億次浮點運算)。

1.2 EF FP8 Training:在進行 FP8 精度的訓練任務(wù)時,性能為 1.2 ExaFLOPS。

3.3X GB300 NVL72:與 GB300 NVL72 相比,性能提升了 3.3 倍。

13 TB/s HBM4:配備了 HBM4,帶寬為 13TB/s。

75 TB Fast Memory:擁有 75 TB 的快速內(nèi)存,是前代的 1.6 倍。

260 TB/s NVLink6:支持 NVLink 6,帶寬為 260 TB/s,是前代的 2 倍。

28.8 TB/s CX9:支持 CX9,帶寬為 28.8 TB/s,是前代的 2 倍。

標準版 Rubin 將配備 HBM4,性能比當前的 Hopper H100 芯片大幅提升。

Rubin 引入名為 Grace CPU 的繼任者—— Veru,包含 88 個定制的 Arm 核心,每個核心支持 176 個線程,并通過 NVLink-C2C 實現(xiàn) 1.8 TB/s 的高帶寬連接。

英偉達表示,定制的 Vera 設(shè)計將比去年 Grace Blackwell 芯片中使用的 CPU 速度提升一倍。

與 Vera CPU 搭配時,Rubin 在推理任務(wù)中的算力可達 50 petaflops,是 Blackwell 20 petaflops 的兩倍以上。此外,Rubin 還支持高達 288GB 的 HBM4 內(nèi)存,這也是 AI 開發(fā)者關(guān)注的核心規(guī)格之一。

實際上,Rubin 由兩個 GPU 組成,而這一設(shè)計理念與當前市場上的 Blackwell GPU 類似——后者也是通過將兩個獨立芯片組裝為一個整體運行。

從 Rubin 開始,英偉達將不再像對待 Blackwell 那樣把多 GPU 組件稱為單一 GPU,而是更準確地按照實際的 GPU 芯 片裸片數(shù)量來計數(shù)。

互聯(lián)技術(shù)也升級了,Rubin 配備第六代 NVLink,以及支持 1600 Gb/s 的 CX9 網(wǎng)卡,能夠加速數(shù)據(jù)傳輸并提升連接性。

除了標準版 Rubin,英偉達還計劃推出 Rubin Ultra 版本。

Rubin Ultra NVL576 則將于 2027 年下半年推出。參數(shù)細節(jié)如下:

15 EF FP4 Inference:在 FP4 精度下進行推理任務(wù)時,性能達到 15 ExaFLOPS。

5 EF FP8 Training:在 FP8 精度下進行訓練任務(wù)時,性能為 5 ExaFLOPS。

14X GB300 NVL72:相比 GB300 NVL72,性能提升 14 倍。

4.6 PB/s HBM4e:配備 HBM4e 內(nèi)存,帶寬為 4.6 PB/s。

365 TB Fast Memory:系統(tǒng)擁有 365 TB 的快速內(nèi)存,是前代的 8 倍。

1.5 PB/s NVLink7:支持 NVLink 7,帶寬為 1.5 PB/s,是前代的 12 倍。

115.2 TB/s CX9:支持 CX9,帶寬為 115.2 TB/s,是前代的 8 倍。

在硬件配置上,Rubin Ultra 的 Veras 系統(tǒng)延續(xù)了 88 個定制 Arm 核心的設(shè)計,每個核心支持 176 個線程,并通過 NVLink-C2C 提供 1.8 TB/s 的帶寬。

而 GPU 方面,Rubin Ultra 集成了 4 個 Reticle-Sized GPU,每顆 GPU 提供 100 petaflops 的 FP4 計算能力,并配備 1TB 的 HBM4e 內(nèi)存,在性能和內(nèi)存容量上都達到了新的高度。

為了在瞬息萬變的市場競爭中站穩(wěn)腳跟,英偉達的產(chǎn)品發(fā)布節(jié)奏已經(jīng)縮短至一年一更。發(fā)布會上,老黃也正式揭曉下一代 AI 芯片的命名——物理學家費曼 ( Feynman ) 。

隨著 AI 工廠的規(guī)模不斷擴大,網(wǎng)絡(luò)基礎(chǔ)設(shè)施的重要性愈發(fā)凸顯。

為此,英偉達推出了 Spectrum-X 和 Quantum-X 硅光網(wǎng)絡(luò)交換機,旨在幫助 AI 工廠實現(xiàn)跨站點連接數(shù)百萬 GPU,同時顯著降低能耗和運營成本。

Spectrum-X Photonics 交換機具有多種配置,包括:

128 端口 800Gb/s 或 512 端口 200Gb/s 配置,總帶寬達 100Tb/s

512 端口 800Gb/s 或 2048 端口 200Gb/s 配置,總吞吐量達 400Tb/s

與之配套的 Quantum-X Photonics 交換機則基于 200Gb/s SerDes 技術(shù),提供 144 端口 800Gb/s 的 InfiniBand 連接,并采用液冷設(shè)計高效冷卻板載硅光子組件

與上一代產(chǎn)品相比,Quantum-X Photonics 交換機為 AI 計算架構(gòu)提供 2 倍速度和 5 倍可擴展性。

Quantum-X Photonics InfiniBand 交換機預計于今年晚些時候上市,而 Spectrum-X Photonics 以太網(wǎng)交換機預計將于 2026 年推出。

隨著 AI 的快速發(fā)展,對數(shù)據(jù)中心的帶寬、低延遲和高能效需求也急劇增加。

英偉達 Spectrum-X Photonics 交換機采用了一種名為 CPO 的光電子集成技術(shù)。其核心是將光引擎(就是能處理光信號的芯片)和普通的電子芯片(比如交換芯片或 ASIC 芯片)放在同一個封裝里。

這種技術(shù)的好處很多:

傳輸效率更高:因為距離縮短,信號傳輸更快。

功耗更低:距離短了,傳輸信號需要的能量也少了。

體積更小:把光和電的部件集成在一起,整體體積也變小了,空間利用率更高。

AI 工廠的「操作系統(tǒng)」Dynamo

未來將沒有數(shù)據(jù)中心,只有 AI 工廠。

黃仁勛示,未來,每個行業(yè)、每家公司擁有工廠時,都將有兩個工廠:一個是他們實際生產(chǎn)的工廠,另一個是 AI 工廠,而 Dynamo 則是專門為「AI 工廠」打造的操作系統(tǒng)。

Dynamo 是一款分布式推理服務(wù)庫,為需要 token 但又無法獲得足夠 token 的問題提供開源解決方案。

簡單來說,Dynamo 有四個方面的優(yōu)勢:

GPU 規(guī)劃引擎,動態(tài)調(diào)度 GPU 資源以適應(yīng)用戶需求

智能路由器,減少 GPU 對重復和重疊請求的重新計算,釋放更多算力應(yīng)對新的傳入請求

低延遲通信庫,加速數(shù)據(jù)傳輸

內(nèi)存管理器,智能在低成本內(nèi)存和存儲設(shè)備中的推理數(shù)據(jù)

人形機器人的露臉環(huán)節(jié),永遠不會缺席

人形機器人再一次成為了 GTC 大會的壓軸節(jié)目,這次英偉達帶來了 Isaac GR00T N1,全球首款開源人形機器人功能模型。

黃仁勛表示,通用機器人技術(shù)的時代已經(jīng)到來,借助 Isaac GR00T N1 核心的數(shù)據(jù)生成以及機器人學習框架,全球各地的機器人開發(fā)人員將進入 AI 時代的下一個前沿領(lǐng)域。

這個模型采用「雙系統(tǒng)」架構(gòu),模仿人類的認知原理:

系統(tǒng) 1:快速思考的動作模型,模仿人類的反應(yīng)或直覺

系統(tǒng) 2:慢思考的模型,用于深思熟慮的決策。

在視覺語言模型的支持下,系統(tǒng) 2 對環(huán)境和指令進行推理,然后規(guī)劃動作,系統(tǒng) 1 將這些規(guī)劃轉(zhuǎn)化為機器人的的動作。

GR00T N1 的基礎(chǔ)模型采用廣義類人推理和技能進行了預訓練,而開發(fā)人員可以通過真實或合成數(shù)據(jù)進行后訓練,滿足特定的需求:既可以完成工廠的特定任務(wù),也可以在家里自主完成家務(wù)。

黃仁勛還宣布了與 Google DeepMind 和 Disney Research 合作開發(fā)的開源物理引擎 Newton。

一臺搭載 Newton 平臺的機器人也登上了舞臺,黃仁勛稱之為「Blue」,外觀神似《星球大戰(zhàn)》中的 BDX 機器人,能夠用聲音和動作和黃仁勛互動。

8 塊 GPU,DeepSeek-R1 推理速度創(chuàng)全球之最

英偉達實現(xiàn)了全球最快的 DeepSeek-R1 推理。

官網(wǎng)顯示,一臺搭載 8 個 Blackwell GPU 的 DGX 系統(tǒng),在運行 6710 億參數(shù)的 DeepSeek-R1 模型時,可實現(xiàn)每用戶每秒超過 250 個 token 的速度,或達到最高吞吐量每秒超過 30000 個 token。

通過硬件和軟件的結(jié)合,自今年 1 月以來,英偉達在 DeepSeek-R1 671B 模型上的吞吐量提升了約 36 倍,每 token 的成本效率提高了約 32 倍。

為了實現(xiàn)這一成就,英偉達完整的推理生態(tài)系統(tǒng)已針對 Blackwell 架構(gòu)進行了深度優(yōu)化,不僅整合 TensorRT-LLM、TensorRT Model Optimizer 等先進工具,還無縫支持 PyTorch、JAX 和 TensorFlow 等主流框架。

在 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B 等模型上,采用 FP4 精度的 DGX B200 平臺相較于 DGX H200 平臺,推理吞吐量提升超過 3 倍。

值得注意的是,此次發(fā)布會的主題演講并未提及量子計算,但英偉達特意在這屆 GTC 大會設(shè)置了量子日,邀請了多家當紅量子計算公司的 CEO 出席。

要知道黃仁勛年初一句「量子計算還需 20 年才實用」的論斷猶在耳畔。

一改口風的背后,離不開微軟耗時 17 年研發(fā)的拓撲量子芯片 Majorana 1 實現(xiàn) 8 個拓撲量子比特集成,離不開 Google Willow 芯片宣稱用 5 分鐘完成經(jīng)典計算機需 10^25 年處理的任務(wù),推動了量子計算的熱潮。

芯片無疑是重頭戲,但一些軟件的亮相同樣值得關(guān)注。

硅谷著名投資人馬克 · 安德森曾提出軟件正在吞噬世界(Software is eating the world)的論斷,其核心邏輯在于軟件通過虛擬化、抽象化和標準化,正在成為控制物理世界的基礎(chǔ)設(shè)施。

不滿足于做「賣鏟人」,英偉達的野心是打造 AI 時代的「生產(chǎn)力操作系統(tǒng)」。從汽車智能駕駛,到制造業(yè)的數(shù)字孿生工廠,這些貫穿整場發(fā)布會的案例都是將 GPU 算力轉(zhuǎn)化為行業(yè)生產(chǎn)力的具象化表達。

實際上,無論是發(fā)布會上亮相的最新核彈芯片,還是押注戰(zhàn)未來的量子計算,黃仁勛在這場發(fā)布會上對 AI 未來發(fā)展的洞察和布局,都比當下的技術(shù)參數(shù)與性能指標更具看點。

在介紹 Blackwell 與 Hopper 架構(gòu)的對比時,黃仁勛還不忘幽默一把。

他以一個 100MW 工廠的對比數(shù)據(jù)為例,指出采用 Hopper 架構(gòu)需要 45,000 顆芯片和 400 個機架,而 Blackwell 架構(gòu)憑借更高的效率顯著減少了硬件需求。

于是,黃仁勛那句經(jīng)典的總結(jié)再次拋出,「the more you buy, the more you save」(買得越多,省得越多)。」隨后話鋒一轉(zhuǎn),他又補充說,「the more you buy, the more you make」(買得越多,賺得越多)。

隨著 AI 領(lǐng)域的重心從訓練轉(zhuǎn)向推理,英偉達更需要證明其軟硬件生態(tài)在推理場景的不可替代性。

一方面,Meta、Google 等巨頭自研 AI 芯片,可能分流 GPU 市場需求。

另一方面,英偉達最新 AI 芯片的適時亮相,回應(yīng)如 DeepSeek 的開源模型對 GPU 需求的沖擊,并展示推理領(lǐng)域技術(shù)優(yōu)勢,也是為了對沖市場對訓練需求見頂?shù)膿鷳n。

最近估值跌至 10 年低位的英偉達,比以往任何時候都需要一場酣暢淋漓的勝利。

相關(guān)標簽

最新評論

沒有更多評論了
主站蜘蛛池模板: 久久亚洲国产成人影院 | 久久免费国产精品一区二区 | 国产真实乱子伦精品视手机观看 | 三级c欧美做人爱视频 | 久久亚洲精品23p | 亚洲男同可播放videos | 日韩国产成人资源精品视频 | 日本精品一区二区三区视频 | 颜值超高的女神啪啪 | 久久伊人成人网 | 99精品视频免费观看 | 在线观看国产一区二区三区 | 国产成人综合在线视频 | 欧美一级免费在线观看 | 国产aaaaa一级毛片 | 暖暖免费高清日本一区二区三区 | 国产香蕉成人综合精品视频 | 国产成人亚洲精品91专区高清 | 国产精选在线播放 | 亚洲欧美日韩综合一区久久 | 国内精品久久久久影院老司 | 99精品免费久久久久久久久日本 | 久久精品香蕉 | 久久精品一区二区国产 | 成年视频国产免费观看 | 国产黄色一级毛片 | 国产边打电话边做对白刺激 | 精品国产看高清国产毛片 | 中文字幕精品在线 | 欧美性精品hd在线观看 | 99精品一区二区免费视频 | 中国美女一级看片 | 免费黄色美女视频 | 成人在线a | 毛片免费观看的视频在线 | 国产福利不卡一区二区三区 | 免费看欧美一级特黄a大片一 | 亚洲精品久久久久午夜三 | 最新中文字幕乱码在线 | 成人欧美一区二区三区黑人免费 | 中文在线视频 |