亚洲美女一区二区三区-亚洲国产一区在线-久草资源在线-免费在线毛片-国产视频www-天天射天天干

關于ZAKER 合作
鈦媒體 18小時前

英偉達登頂市值第一,國產 AI 芯片如何用新技術突圍算力封鎖?

全球正爆發一場新的 AI 算力變革。

今年 7 月初,AI 芯片巨頭英偉達市值首次突破 4 萬億美元(約合人民幣 28 萬億元)大關,成為全球市值最高的人工智能、半導體和科技領域的企業。同時,英偉達 CEO 黃仁勛身價也增至 1440 億美元,超越 " 股神 " 巴菲特,成為全球資本市場的焦點。

這一現象背后,不僅僅是個別企業的成功故事,更是 AI 時代全球科技、資本市場格局變化,還預示著 AI 算力和基礎設施對于 AI 產業發展的重要性。

而對于國內市場來說,這一輪 AI 算力熱是一次重要的機遇。一方面,國內面臨 AI 算力封鎖挑戰;另一方面,DeepSeek 等中國 AI 大模型發展迅猛,對于 AI 推理算力需求增加,但國產 AI 芯片產能不足、具有較大缺口。

據統計,預計到 2030 年左右,中國 AI 芯片市場規??赡艹^ 1.3 萬億元,屆時中國 AI 產業及相關行業可能將價值 1.4 萬億美元(約合人民幣 10 萬億元)。

那么,如今 " 后摩爾時代 " 下,中國 AI 芯片行業如何學習 DeepSeek 這種以效率為導向、低成本發展模式,開辟一條獨特的發展路徑,用新技術突圍算力封鎖,從而提升國產 AI 算力技術和生態?

7 月初舉行的中國集成電路設計創新大會(ICDIA)上,清華大學教授、集成電路學院副院長、清微智能聯合創始人兼首席科學家尹首一發表題為《AI 時代芯片設計的 STCO 挑戰》,提出了一個非常新穎的 STCO(System-Technology Co-optimization)" 系統技術協同優化 " 的方法,通過對系統、目標需求建模,希望整合芯片設計、制造工藝、封裝技術等多個環節,從而實現 AI 芯片性能、功耗、面積、成本(PPAC)的最優平衡。

芯片系統技術協同優化解決算力 " 十字路口 "

AI 技術進入大眾視野到今天已經十三年,大體分為三個階段:

第一階段:2012 年 -2017 年之間,關注一個具體、 受限的 AI 任務,如圖像識別;

第二階段:2018 年以后,AI 大模型領域的 " 過渡期 " 形成了非常關鍵的技術,比如 Transformer 架構,但當時的 AI 模型參數規模并沒有特別大;

第三階段:2020 年至今,我們進入大模型的時代,AI 模型和規模急劇擴張,大規模參數的模型結構更復雜,適用于多任務學習,具備更好的性能和泛化能力。

如今,AI 大模型發展的背后,芯片算力必不可缺,今天 AI 需求的算力是供給的 100 倍左右。而三要素——計算架構、制造工藝、芯片面積相乘,就構建出強大的芯片算力。

然而,當前國內 " 制造工藝 " 受限,芯片性能增長已進入 " 瓶頸期 "。而且,集成電路產業進入 " 后摩爾 " 時代,從原來單一芯片設計到如今 " 軟件 + 系統設計 ",致使芯片算力技術發展進入到 " 十字路口 "。

事實上,隨著芯片制程和功耗要求越來越高,技術需求越來越復雜,所謂 " 價格不變時集成電路上可容納的晶體管數目每隔 18-24 個月增加一倍、性能也將提升一倍 " 這一定律已不太可能會實現,制造工藝面臨物理極限,工藝紅利帶來的算力提升已難以為繼,市場呼喚新的技術突破。同時,先進工藝封鎖、先進 HBM(高帶寬存儲)封鎖也成為 AI 芯片算力發展的新挑戰。

因此,尹首一教授提出,利用 STCO(系統技術協同優化)技術方法,整合架構探索、組件設計、快速仿真、工藝優化等先進集成技術設計手段,從而帶來全新芯片算力提升的新空間,不僅實現 AI 芯片性能、功耗、面積、成本之間的最優平衡,而且可有效突破算力封鎖。

1、架構探索:

垂直堆疊:堆疊方式、芯粒設計和互連方式具有多種選擇,存在更大的探索空間,需要自動化的架構探索和評估工具。

規模擴展:傳統前后端設計順次進行的方式會導致迭代時間過長,需要在設計前期提供工藝約束預評估的協同優化工具。

2、組件設計:3.5D 大芯片中存在更多的設計選擇, 協同影響系統設計指標。在 3.5D 大面積集成下,供電分布網絡(PDN)、深溝槽電容(DTC)規模龐大,存在協同優化難的問題,同時三維集成架構中,TSV(硅通孔技術)承載著信號、供電等重要作用,與機械應力等問題息息相關,需要仔細權衡 TSV 設計與芯片性能、良率的關系。因此,芯片設計過程中需要組件定制化設計和優化的工具。

3、快速仿真:在 3.5D 高密度集成下,現有設計流程無法提前考慮大規模翹曲,導致迭代周期長成本高,且現有工具難以支撐 3.5D 大規模封裝力學仿真問題,因此,未來芯片研發需要高抽象層次的預評估方法,以及針對 3.5D 規模的快速多物理場力學仿真 EDA 工具。

4、工藝優化:現有互連工藝存在長互連通信差、光罩拼接精度低、多金屬層難實現等問題,限制架構互連拓撲創新,所以芯片設計過程中需要工藝與設計協同優化。

尹首一表示,AI 時代,我們設計一款 3.5D 大芯片面臨的四部分芯片設計挑戰,可以總結為三個層次的痛點,從而迫切需要我們在芯片設計方法學、設計工具上有所突破:

1、我們今天暫時對一些問題缺乏設計及評估工具,在這種情況下只能靠經驗驅動,依賴于人工經驗,從而帶來性能的急劇下降;

2、設計芯片中確實有一部分的基礎工具,但是存在仿真慢、迭代長等問題,尚無法滿足設計周期需求;

3、今天對 STCO 設計空間探索尚不全面,造成今天一部分設計芯片沒有找到最佳的性能和設計決策點。

尹首一強調,上述痛點既是未來在 AI 時代設計算力大芯片亟需突破的問題,也給一些領域帶來了新的機會,希望芯片技術發展過程中,可以在設計、工具、工藝三方面充分協同起來,能夠完美解決一些挑戰,并且滿足設計中的需求,為未來 AI 芯片算力供給提供最堅實的基礎和保障。

未來 AI 算力非 GPU 架構加速崛起

隨著 AI 和大數據技術的廣泛應用,中國芯片算力規模已呈現快速增長態勢。

據弗若斯特沙利文統計,2024 年,中國 AI 計算加速芯片市場規模 1425.37 億元,到 2029 年激增至 13367.92 億元,期間年均復合增長率 53.7%。同時,2024 年中國算力總整體規模達 617.00EFLOPs,預計到 2029 年達 3442.89EFLOPs,年均復合增長率 40%,其中,智能算力 2025 年 -2029 年期間年均復合增長率高達 45.3%。

但與此同時,從數據來看,當前國內 GPU 芯片的市場占比 69.9%,而其他 AI 芯片占比為 30.1%。相對于弗若斯特沙利文給出未來 22.7% 的比例預期,IDC 卻認為,預計到 2028 年,中國加速計算服務器市場規模將超過 550 億美元,非 GPU 架構服務器市場占比將迎來快速增長。

值得一提的是,一種與英偉達 GPU 共享式集中計算模式不同,基于分布式數據流計算的新型計算架構——可重構 RPU(Reconfigurable Processing Unit),近年來隨著 AI 大模型發展異軍突起。

它與 CPU 的馮 · 諾依曼指令驅動時域計算模式不同,是一種數據驅動的時空域執行模式,可根據不同的應用需求重構硬件資源,構建專用的計算通道,天然適配 AI 算法模型并行化、流式化、密集化特點,使得 AI 芯片具備靈活性和專用集成電路高效性的優勢。2015 年,國際半導體技術路線圖(ITRS)將可重構芯片列為 " 未來最具前景芯片架構技術 ",可重構芯片也被學術界和產業界視為 CPU、FPGA 和 GPU 之外的第四類通用計算芯片。

放眼全球,該類型架構芯片呈現蓬勃發展態勢。例如,美國斯坦福大學孵化的公司 SambaNova,通過自研的可重構芯片產品成為 AI 芯片行業估值最高的獨角獸公司,其產品能夠支持 5 萬億參數模型訓練,8 芯片配置性能為英偉達 H100 的 3.1 倍;美國芯片初創公司 Groq 開發的張量流式處理器架構 LPU(Language Processing Unit),推理速度相較于英偉達 GPU 提高 10 倍,成本卻降低至英偉達的十分之一;特斯拉在專為 AI 訓練自研的 Dojo 超算系統中也采用了分布式數據流計算方式,單個 Dojo 擁有 9Petaflops 算力、每秒 36TB 帶寬,目前是特斯拉實現通用人工智能(AGI)的核心基礎設施。

分布式數據流計算不僅在技術層面持續實現突破,在產品商業化方面也取得了階段性成果。近期,OpenAI 租用谷歌 AI 芯片(TPU)訓練 ChatGPT,首次采用了 "GPU 訓練 +TPU 推理 " 的混合架構模式。今年 4 月,谷歌最強 AI 芯片第七代 TPU(張量處理單元)—— Ironwood 正式亮相,這款 TPU 芯片性能狂飆 3600 倍,直接叫板英偉達 Blackwell B200。

據 Capvision 顯示,谷歌 TPU 集群中,70%-80% 的算力用于內部業務場景,剩余不到 30% 以租賃方式對外使用。而其中,全球超過 60% 的生成式 AI 初創公司、近 90% 生成式 AI 獨角獸都在使用谷歌云 TPU AI 基礎設施服務。

國內專注可重構 RPU 芯片的代表企業包括清微智能。

作為 " 脫胎 " 于清華可重構實驗室的 AI 芯片公司,清微智能基于國產原創可重構芯片(RPU)架構研發并量產了高算力芯片 TX8 系列,面向智算中心等云計算場景,其最新 TX81 單個 RPU 模組算力可達到 512TFLOPS(FP16),龐大的 REX1032 訓推一體服務器單機算力可達 4 PFLOPS,單機可支持 DeepSeek R1/V3 滿血版推理,支持萬億以上參數大模型部署,可實現千卡直接互聯,無需交換機成本。目前,清微智能已在國內多個省份落地千卡智算中心,同時在多個行業實現服務器部署。

總結來看,國內 AI 算力缺口很大、市場需求持續增長。長期來看,未來 AI 芯片核心架構的內在屬性需要與 AI 模型特點相適配,同時要結合架構探索、組件設計、快速仿真、工藝優化等先進集成技術設計手段進行 STCO,不斷迭代,換道超車,才能有望突破當前英偉達 GPU 產品天花板,實現 AI 芯片性能、功耗、面積、成本(PPAC)的最優平衡。

正如黃仁勛所講,AI 需要一種基礎設施,就像互聯網、電力一樣。如今,無論是 AI 工廠,還是 Agentic AI,或是物理 AI,所有這些場景都催生出強大計算能力需求,未來,數據中心將是新的計算單元。(本文首發于鈦媒體 App,作者|林志佳,編輯|蓋虹達)

相關標簽

覺得文章不錯,微信掃描分享好友

掃碼分享
主站蜘蛛池模板: 日韩一级片免费在线观看 | 中文字幕日韩精品亚洲七区 | 一区二区三区亚洲视频 | 免费永久观看美女视频网站网址 | 最新亚洲精品 | 中文字幕亚洲综合久久男男 | 日韩亚洲成a人片在线观看 日韩亚洲精品不卡在线 | 国产一级毛片一区二区三区 | 午夜国产 | 加勒比综合在线 | 好吊妞998视频免费观看在线 | 中文字幕日韩精品有码视频 | 亚洲国产成人久久一区二区三区 | 亚洲欧美综合网 | 成年女人毛片免费播放人 | 久久久久成人精品一区二区 | 国产精品久久自在自线观看 | 日韩无砖专区体验区 | 国内精品久久久久久久久 | 精品72久久久久久久中文字幕 | 国产精品欧美亚洲韩国日本 | 国产五区 | 亚洲国产精品乱码在线观看97 | 女人被男人桶 | 国产一区二区三区不卡在线观看 | a级国产乱理伦片在线观看99 | 精品外国呦系列在线观看 | 欧美老妇免费做爰视频 | 久久久综合久久 | 国产在线观看网址在线视频 | 香蕉毛片a | 毛片一区| 2022国产精品手机在线观看 | 免费看欧美一级a毛片 | 日韩在线国产精品 | 久久久久久久性高清毛片 | 九九久久免费视频 | a毛片在线看片免费 | 国产在线一二三区 | 国语精品视频在线观看不卡 | 亚洲va久久久噜噜噜久久狠狠 |