這場競速賽,目前蘋果生態大幅領先,愛范兒在上周的 Mac Studio 評測中,成功在本地部署并運行 DeepSeek Q4 量化版 671B 和 70B 版本,而且 token 吞吐性能不錯,展現了 M3 Ultra 芯片以及高達 512GB 統一內存的實力。
而在 x86 陣營這邊,目前最有競爭力的「車隊」AMD,正在試圖加速超車。
在 3 月 18 日舉辦的 AMD AI PC 創新峰會上,公司高級副總裁、計算與圖形總經理 Jack Huynh 展示了在 AMD 架構筆記本電腦上運行 DeepSeek 大模型的能力。
根據現場展示,一臺搭載 AMD 銳龍 AI Max+ 395 處理器的筆記本電腦,順利運行了 DeepSeek- 通義千問融合 7B 大模型。Token 秒速并沒有公開,但根據現場肉眼觀測的結果,結合我們過往在不同機型上測試的經驗,現場速度應該至少能夠達到 15 tok/s 以上。
而銳龍 AI Max 處理器家族本身也支持了更高的顯存分配能力。在現場我們看到,AI Max 支持最高 96GB 的顯存分配,讓處理器集顯獲得了高端獨立顯卡才能實現的性能,而這一性能既可以用于 AI 訓練和推理計算,也可以用于游戲。
經過優化之后,參數量再大也不愁。在 demo 區的示例中我們看到,前述同款芯片在華碩 ROG 幻 X 2025 款筆記本電腦上,最高可以運行 Meta 開發的 Llama 3.1 70B 大語言模型。
盡管參數量極大,過往對硬件要求也極高,遠超過去業界對于移動計算設備本地推理能力的認知上限——筆記本電腦現在也可以順利且輕松地運行數百億參數量的大模型了。
AMD 這樣做的目的,是確保基于大模型的企業級應用和科研能力,能夠被普及到 x86 陣營的筆記本,甚至配置更輕便的移動計算設備。目前,AMD AI PC 環境支持 DeepSeek 1.5B、7B 等主流型號的大模型。
如果筆記本不足夠的話,AMD 也為真正的重型用戶提供了能夠運行 DeepSeek R1 全參數大模型的服務器方案,領先了英偉達一步(后者可能會在明天凌晨更新 AI 計算集群模塊化產品)。
現場展示了兩種不同方案,其一是 AMD 自主的方案,基于 vllm 框架,采用 8 x W7900/78000 顯卡,可以完全離線本地部署 DeepSeek 671B,為企業內部研發和知識產權保駕護航。
很有意思的是現場的 demo 之一,由清醒異構開發,基于 AMD Ryzen AI 平臺的大模型圖片生成工具「繪夢師」。它支持文生圖、圖生圖、邊畫邊生圖等生成模式,而且完全可以在本地運行,不需要聯網。
最近一年時間里,AI 技術發展的太過于迅猛,能力上限一再提高,大模型可選項也與日俱增。但受制于設備本地計算能力,PC 行業也在面臨很大的挑戰。
而考慮到最大的友商目前面臨非技術困難,AMD 作為 x86 陣營另一個底層計算技術頭部廠商,認為自己必須肩負責任,迎接挑戰,領導變革,讓 AI 能夠真正通過 AI PC 進入千家萬戶和千行百業。
AI PC 的品牌和機型的選擇權寬度,AI PC 產品本身的大模型運算能力,以及不同消費級場景的應用豐富度,對于 PC 品牌和芯片廠商們在 AI 時代守住本陣營市場份額尤為重要。