文 | 半導(dǎo)體產(chǎn)業(yè)縱橫
明日,英偉達(dá)創(chuàng)始人 CEO 黃仁勛將迎來重振該公司股價的重要契機(jī)。在英偉達(dá)年度技術(shù)峰會 GTC 上,黃仁勛將闡述他如何帶領(lǐng)英偉達(dá)探索 AI 下一個前沿的方向。
據(jù)摩根大通此前預(yù)計,英偉達(dá)將在大會上推出 Blackwell Ultra 芯片(GB300),并可能披露 Rubin 平臺的部分細(xì)節(jié)。此次大會還將聚焦 AI 硬件的全面升級,包括更高性能的 GPU、HBM 內(nèi)存、更強(qiáng)的散熱和電源管理,以及 CPO(共封裝光學(xué))技術(shù)路線圖。
在黃仁勛的演講到來前,我們來看看這些年中英偉達(dá)推出的系列架構(gòu),和他們背后的故事。
1999 年底,英偉達(dá)推出了第一款 GPU(Graphic Process Unit,圖形處理單元)Geforce 256,將完整的渲染管線集成進(jìn)硬件,提供了不錯的加速效果。但這款產(chǎn)品還很難稱之為處理器,因為它尚不具備任何可編程能力。2001 年隨著 DX8 引入可編程頂點著色器的概念,英偉達(dá)才在 Geforce 3 中添加了 Vertex Processor,使 GPU 可以編程了。隨后,越來越多的可編程著色器被 DX 和 OpenGL 引入,以滿足渲染開發(fā)者的算法需求。
在 GPU 設(shè)計之初,并非針對深度學(xué)習(xí),而是圖形加速,在英偉達(dá)推出 CUDA 架構(gòu)之前,GPU 并無太強(qiáng)對深度學(xué)習(xí)運算能力的支持。真正用來作為人工智能算力支持的 GPU,不是普通的顯卡,而是 GPGPU(General-Purpose Computing on Graphics Processing Units)即通用計算圖形處理器,這是一種用于處理非特定需求(通用類型)計算目的的算力單元(芯片)。
隨著 GPU 具備了可編程能力,其用于并行計算的天賦被發(fā)掘出來。當(dāng)時,很多大學(xué)和研究機(jī)構(gòu)都在嘗試用 GPU 做一些科學(xué)計算。
2003 年的 SIGGRAPH 大會上,許多業(yè)界泰斗級人物發(fā)表了關(guān)于利用 GPU 進(jìn)行各種運算的設(shè)想和實驗?zāi)P汀IGGRAPH 會議還特地安排了時間進(jìn)行 GPGPU 的研討交流。但當(dāng)時的開發(fā)者只能利用著色器編程語言開發(fā)程序,必須將計算資源映射為渲染概念才能使用,非常麻煩。因此亟需一種針對 GPU 并行計算的編程語言。此時,正在斯坦福讀博的 Ian Bark 看到這一需求,投身到 Brook(一套用于并行計算的編程語言,后被 AMD 收購)的研發(fā)中,成為 GPU 并行計算軟件棧的先行者。2004 年,他以實習(xí)生的身份加入英偉達(dá),并于兩年后開發(fā)出 CUDA。
渲染需求變得越來越多樣化,并行計算業(yè)務(wù)正含苞待放,Tesla G80 架構(gòu)正是在這樣的歷史背景下被設(shè)計出來,成為英偉達(dá)改變自身命運的重要轉(zhuǎn)折點。
2006 年,英偉達(dá)推出了 Tesla 架構(gòu)的第一代(G80),開啟了 GPU 通用計算探索。Tesla 架構(gòu)之前的顯卡也經(jīng)歷了幾代的發(fā)展,但基本上是圖形顯卡。而它采用全新的 CUDA 架構(gòu),支持使用 C 語言進(jìn)行 GPU 編程,可以用于通用數(shù)據(jù)并行計算。這成為英偉達(dá)改變自身命運的重要轉(zhuǎn)折點。Tesla G80 是第一款實現(xiàn) CUDA 架構(gòu)的 GPGPU,開啟了一個并行加速的時代。G80 是有史以來最偉大的 GPU 變革產(chǎn)物之一,首批產(chǎn)品 GeForce 8800 GTX/GTS 于 2006 年 11 月發(fā)布。之后,英偉達(dá)又在第一代基礎(chǔ)上推出了 Tesla 架構(gòu)的第二代(GT200),其雙精度的 FMA 運算速度 30FMA ops/ clock,提升了 8 倍多。
就在 G80-G200 這兩代產(chǎn)品上,英偉達(dá)花了大約三年時間積累了大量的用戶體驗反饋,招募了 Bill Dally 作為首席科學(xué)家,最終推出了 Fermi 這個劃時代的產(chǎn)品,這是第一款帶有 L1 Cache、ECC 糾錯,面向超級計算機(jī)的架構(gòu),從這一代開始,英偉達(dá)涉足超級計算機(jī)的野心開始暴露無遺,在發(fā)布的時候拉來了多位超級計算機(jī)行業(yè)的重要人物站臺。
2010 年,英偉達(dá)公司正式推出了 Fermi 全新架構(gòu)。這款架構(gòu)不僅僅是一個簡單的硬件更新,而是被英偉達(dá)定義為首款專門為計算任務(wù)而設(shè)計的 GPU。換句話說,英偉達(dá)通過 Fermi 架構(gòu)重新定義了 GPU 的概念,旨在加速并行計算的性能。與此同時,這款架構(gòu)還具備了強(qiáng)大的圖形渲染能力,使其在圖形處理方面同樣表現(xiàn)出色。而 GF100 是第一款基于 Fermi 架構(gòu)的 GPU,集成 32 億個晶體管,專為下一代游戲與通用計算應(yīng)用程序而優(yōu)化的全新架構(gòu),實現(xiàn)了所有 DirectX 11 硬件功能,包括曲面細(xì)分和計算著色器等。
G80 是對統(tǒng)一圖形與計算處理器應(yīng)有面貌的最初愿景。隨后的 GT200 擴(kuò)展了 G80 的性能與功能。而 GF100,這是一個專為下一代游戲與通用計算應(yīng)用程序而優(yōu)化的全新架構(gòu)的 GPU。Fermi 這一代架構(gòu)展現(xiàn)了英偉達(dá)全力押注通用并行計算的決心。倘若說 Tesla G80 僅僅是小試身手,那么 Fermi 則正式吹響了全面進(jìn)軍計算產(chǎn)業(yè)的號角。
英偉達(dá)布局高性能計算
之后,英偉達(dá)大致保持了兩年更新一次架構(gòu)的頻率,不斷推陳出新。
2012 年,英偉達(dá)推出 Kepler 架構(gòu)。這是首個支持超級計算和雙精度計算的 GPU 架構(gòu)。得益于 28nm 的先進(jìn)制程技術(shù),Kepler 在性能和功耗方面實現(xiàn)了質(zhì)的提升。Kepler GK110 具有 2880 個流處理器和高達(dá) 288GB/s 的帶寬,計算能力比 Fermi 架構(gòu)提高 3-4 倍。Kepler 架構(gòu)的出現(xiàn)使 GPU 開始成為高性能計算的關(guān)注點。
2014 年,英偉達(dá)發(fā)布的 Maxwell 架構(gòu)是先前 Kepler 架構(gòu)的升級版,采用臺積電 28nm 工藝制程。彼時移動設(shè)備興起,對低功耗、高性能 GPU 需求大增,同時需要優(yōu)化 GPU 在不同應(yīng)用場景的適應(yīng)性,Maxwell 架構(gòu)應(yīng)運而生。首款基于 Maxwell 架構(gòu)的 GPU 為 GM107,專為筆記本和小型(SFF)PC 等功率受限的使用場合而設(shè)計,采用臺積電 28nm 工藝制程,芯片尺寸 148 平方毫米,集成 18.7 億個晶體管。針對流式多處理器采用全新設(shè)計稱為 SMM,GM107 核心的每核心效能提升了 35%,每瓦功耗比提升了一倍,支持 DirectX 12。首款基于 GM107GPU 的顯卡是 GeForce GTX750Ti。
2016 年,Pascal 架構(gòu)推出,用于接替上一代的 Maxwell 架構(gòu)。基于 Pascal 架構(gòu)的 GPU 使用 16nm FinFET 工藝、HBM2、NVLink 等新技術(shù)。這是首個為了深度學(xué)習(xí)而設(shè)計的 GPU,支持所有主流的深度學(xué)習(xí)計算框架。Pascal 架構(gòu)核心陣容強(qiáng)大,包括 GP100(3840 個 CUDA Core 和 60 組 SM 單元)和 GP102(3584 個 CUDA Core 和 28 組 SM 單元)兩大核心。Pascal GP100 具有 3840 個 CUDA 核心和 732GB/s 的顯存帶寬,但功耗只有 300W,比 Maxwell 架構(gòu)提高 50% 以上。
Pascal 架構(gòu)剛剛推出之際,深度學(xué)習(xí)正發(fā)展的如火如荼。業(yè)界出現(xiàn)了很多針對神經(jīng)網(wǎng)絡(luò)的專用加速器,無論在能效和面效上都碾壓 GPU,這讓英偉達(dá)倍感壓力。為了應(yīng)對競爭,英偉達(dá)一反之前兩年一代架構(gòu)的迭代節(jié)奏,次年就推出了專門針對神經(jīng)網(wǎng)絡(luò)加速的 GPU 架構(gòu) Volta。Volta 架構(gòu)引入了 Tensor Core(張量核心)專門加速矩陣運算,提升深度學(xué)習(xí)計算效率;支持 NVlink 2.0,提高了數(shù)據(jù)傳輸速度,增強(qiáng)了多 GPU 協(xié)作能力,提升系統(tǒng)整體性能。Volta GV100 具有 5120 個 CUDA 核心和 900GB/s 的帶寬,加上 640 個張量核心,AI 計算能力達(dá)到 112 TFLOPS,比 Pascal 架構(gòu)提高了近 3 倍。Volta 的出現(xiàn)標(biāo)志著 AI 成為 GPU 發(fā)展的新方向。
緊隨其后,在一年后的 2018 年,英偉達(dá)發(fā)布了 Turing 架構(gòu),進(jìn)一步增強(qiáng)了 Tensor Core 的功能。Turing 架構(gòu)不僅延續(xù)了對浮點運算的優(yōu)化,還新增了對 INT8、INT4、甚至是 Binary(INT1)等整數(shù)格式的支持。這一舉措不僅使大范圍混合精度訓(xùn)練成為可能,更將 GPU 的性能吞吐量推向了新的高度,較 Pascal GPU 提升了驚人的 32 倍。此外,Turing 架構(gòu)還引入了先進(jìn)的光線追蹤技術(shù),新增了 Ray Tracing 核心(RT Core)。Turing TU102 具有 4608 個 CUDA 核心、576 個張量核心和 72 個 RT 核心,支持 GPU 光線追蹤,代表了圖形技術(shù)的新突破。
2020 年,Ampere 架構(gòu)的推出再次刷新了人們對 Tensor Core 的認(rèn)知。Ampere 架構(gòu)新增了對 TF32 和 BF16 兩種數(shù)據(jù)格式的支持,進(jìn)一步提高了深度學(xué)習(xí)訓(xùn)練和推理的效率。同時,Ampere 架構(gòu)引入了對稀疏矩陣計算的支持,在處理深度學(xué)習(xí)等現(xiàn)代計算任務(wù)時,稀疏矩陣是一種常見的數(shù)據(jù)類型,其特點是矩陣中包含大量零值元素。傳統(tǒng)的計算方法在處理這類數(shù)據(jù)時往往效率低下,而 Ampere 架構(gòu)通過專門的稀疏矩陣計算優(yōu)化,實現(xiàn)了對這類數(shù)據(jù)的高效處理,從而大幅提升了計算效率并降低了能耗。Ampere GA100 GPU 具有 6912 個 CUDA 核心、108 個張量核心和 hr 個 RT 核心 , 比 Turing 架構(gòu)提高約 50%。Ampere 架構(gòu)在人工智能、光線追蹤和圖形渲染等方面性能大幅躍升。
英偉達(dá)全面引領(lǐng) AI 時代
2016 年,黃仁勛親手將第一臺 DGX-1 超級計算機(jī)送給了 OpenAI。而在 2022 年年底,OpenAI 發(fā)布了 ChatGPT 生成式大語言模型,其驚艷的自然語言處理能力成為深度學(xué)習(xí)發(fā)展歷程中劃時代的里程碑。而在這波 AI 革命中,英偉達(dá)作為 " 賣鏟人 ",發(fā)布了 H100 GPU,憑借著最新的 Hopper 架構(gòu),H100 成為地表最強(qiáng)并行處理器。
H100 是英偉達(dá)第九代數(shù)據(jù)中心 GPU,集成了 800 億個晶體管,專為大規(guī)模 AI 和 HPC 計算而生。Hopper 架構(gòu)標(biāo)志性的變化是新一代流式多處理器的 FP8 張量核心(Tensor Core),這一創(chuàng)新進(jìn)一步加速了 AI 訓(xùn)練和推理過程。值得注意的是,Hopper 架構(gòu)去除了 RT Core,以便為深度學(xué)習(xí)計算騰出更多空間。此外,Hopper 架構(gòu)還引入了 Transformer 引擎,這使得它在處理如今廣泛應(yīng)用的 Transformer 模型時表現(xiàn)出色,進(jìn)一步鞏固了英偉達(dá)在深度學(xué)習(xí)硬件領(lǐng)域的領(lǐng)導(dǎo)地位。
同時,NVIDIA Grace Hopper 超級芯片將 NVIDIA Hopper GPU 的突破性性能與 NVIDIA Grace CPU 的多功能性結(jié)合在一起,在單個超級芯片中與高帶寬和內(nèi)存一致的 NVIDIA NVLink Chip-2-Chip(C2C)互連,并且支持新的 NVIDIA NVLink 切換系統(tǒng),CPU 和 GPU、GPU 和 GPU 之間通過 NVLink 進(jìn)行連接,數(shù)據(jù)的傳輸速率高達(dá) 900 GB/s,解決了 CPU 和 GPU 之間數(shù)據(jù)的時延問題,跨機(jī)之間通過 PCIe 5.0 進(jìn)行連接。NVIDIA Grace Hopper 超級芯片架構(gòu)是高性能計算(HPC)和 AI 工作負(fù)載的第一個真正的異構(gòu)加速平臺。
2024 年,英偉達(dá)推出的 Blackwell 架構(gòu)為生成式 AI 帶來了顯著的飛躍。相較于 H100 GPU,GB200 超級芯片在處理 LLM 推理任務(wù)時,性能實現(xiàn)了高達(dá) 30 倍的驚人提升,同時在能耗方面也實現(xiàn)了高達(dá) 25 倍的優(yōu)化。其中 GB200 超級芯片能夠組合兩個 Blackwell GPU,并與英偉達(dá)的 Grace 中央處理單元配對,支持 NVLink-C2C 互聯(lián)。Blackwell 還引入了第二代 Transformer 引擎,增強(qiáng)了對 FP4 和 FP6 精度的兼容性,顯著降低了模型運行時的內(nèi)存占用和帶寬需求。此外,還引入了第五代 NVLink 技術(shù),使每個 GPU 的帶寬從 900 GB/s 增加到 1800 GB/s。
英偉達(dá)的 GPU 架構(gòu)經(jīng)歷了一系列針對深度學(xué)習(xí)優(yōu)化的重大創(chuàng)新和升級,每一次進(jìn)步都在推動深度學(xué)習(xí)技術(shù)的邊界。這些架構(gòu)的發(fā)展不僅體現(xiàn)了英偉達(dá)在硬件設(shè)計方面的前瞻性,也為深度學(xué)習(xí)的研究和應(yīng)用提供了強(qiáng)大的計算支持,促進(jìn)了 AI 技術(shù)的快速發(fā)展。
值得注意的是,去年英偉達(dá) CEO 黃仁勛在接受采訪時表示,英偉達(dá)工程師正在開發(fā)接下來的兩代產(chǎn)品," 將按照一年一代的節(jié)奏完成 "。此前,英偉達(dá)按照平均兩年一次的更新頻率升級 GPU 架構(gòu),對產(chǎn)品性能進(jìn)行大幅提升。
明日,英偉達(dá)會如何刷新人們的想象,令人期待。