編輯 | 心緣
智東西 3 月 12 日報道,剛剛,谷歌發(fā)布 emma 3 系列模型。谷歌博客中說,這是其迄今為止最先進、最便攜、最負責任開發(fā)的開放式模型,是 " 世界上最好的單 GPU 模型 "。
Gemma 3 采用與 Gemini 2.0 相同的研究和技術,支持超過 35 種語言,并能夠分析文本、圖像和短視頻。
其優(yōu)勢在于可以直接在手機、PC、工作站上快速運行,參數(shù)規(guī)模有 1B、4B、12B 和 27B 四種,開發(fā)者可以根據(jù)特定硬件和性能需求選擇。
谷歌還推出了基于 Gemma 3 的圖像安全分類器 ShieldGemma 2,ShieldGemma 2 可用于過濾圖像輸入和輸出,以查找歸類為色情、危險或暴力的內容。
Hugging Face 地址:https://huggingface.co/blog/gemma3
Kaggle 地址:https://www.kaggle.com/models/google/gemma-3
論文地址:https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf
一、引入官方量化版本,單卡即可運行
谷歌以不同的標準格式提供模型的量化版本,通過使用量化感知訓練(QAT)對每個模型進行少量步驟微調獲得的,這使得 Gemma 3 在保持高精度的同時減少了模型大小和計算要求。
按 Chatbot Arena Elo 分數(shù)對 AI 模型進行排名:分數(shù)越高(排名越靠前的數(shù)字)表明越受用戶青睞。下方的圓點表示模型對英偉達 H100 GPU 的需求,Gemma 3 27B 模型排名很高,其他模型可能需要多達 32 塊 GPU,Gemma 3 27B 僅需一塊 GPU 即可運行。
從 Chatbot Arena 評測結果來看,Gemma-3-27B-IT 得分超過 DeepSeek-V3、01-preview 等模型。其論文中提到,所有模型均由人類評分員通過盲目并排評估,每個模型都根據(jù) Elo 評分系統(tǒng)獲得一個分數(shù),Gemma-3-27B-IT 是 2025 年 3 月 8 日收到的初步結果。
Gemma 3 系列模型為超過 35 種語言提供開箱即用的支持,并為 140 多種語言提供預訓練支持。
此外,其可以幫助開發(fā)者創(chuàng)建具有高級文本和視覺推理功能的 AI 功能,如分析圖像、文本和短視頻的應用程序。Gemma 3 支持函數(shù)調用和結構化輸出,可幫助開發(fā)者自動執(zhí)行任務并構建 Agent。
除了 Gemma 3,谷歌還推出了基于 Gemma 3 構建的 4B 參數(shù)圖像安全檢查器 ShieldGemma 2。
ShieldGemma 2 可以輸出三個類別的安全標簽:危險內容、露骨色情和暴力。開發(fā)人員可以根據(jù)他們的安全需求和用戶進一步定制 ShieldGemma。
二、與 Gemma 2 訓練方式類似,增加多語言數(shù)據(jù)
Gemma 3 遵循與 Gemma 2 類似的方法進行知識提煉的預訓練。
訓練數(shù)據(jù)方面,研究人員在比 Gemma 2 稍大的 token 預算上對模型進行預訓練,即在 Gemma 3 27B 上使用 14T tokens,在 12B 版本上使用 12T tokens,在 4B 版本上使用 4T tokens,在 1B 版本上使用 2T tokens。token 的增加解釋了預訓練期間使用的圖像和文本的混合。
此外,研究人員還增加了多語言數(shù)據(jù)量以提高語言覆蓋率,并添加了短語和并行數(shù)據(jù)等。
Tokenizer(分詞器)方面,研究人員使用與 Gemini 2.0 相同的 Tokenizer:具有拆分數(shù)字、保留空格和字節(jié)級編碼的 SentencePiece Tokenizer,生成的詞匯表有 262k 個條目,此 Tokenizer 對于非英語語言來說更加平衡。
Gemma 3 使用過濾技術降低不必要或不安全的言論風險,并刪除某些個人信息和其他敏感數(shù)據(jù)。其會從預訓練數(shù)據(jù)混合物中凈化評估集,并通過最大限度地減少敏感輸出的擴散來降低風險。
研究人員為每個 token 抽取 256 個 logit,并按教師概率加權。學生通過交叉熵損失在這些樣本中學習教師的分布。對于非抽樣 logit,教師的目標分布設置為零概率,并重新規(guī)范化。
三、附帶改進代碼庫高效微調,已在英偉達 API 上線
開發(fā)者現(xiàn)在可以將 Gemma 3 和 ShieldGemma 2 無縫集成到現(xiàn)有的工作流程中。
Gemma 3 的開發(fā)工具包括 Hugging Face Transformers、Ollama、JAX、Keras、PyTorch、Google AI Edge、UnSloth、vLLM 和 Gemma.cpp。
開發(fā)者可以在 Google AI Studio 中訪問 Gemma 3,或通過 Kaggle 或 Hugging Face 下載模型。
在自定義方面,Gemma 3 附帶了一個改進的代碼庫,其中包括用于高效微調和推理的配方。開發(fā)者可以通過 Google Colab、Vertex AI 甚至游戲 GPU 進行訓練和微調模型。
Gemma 3 提供了多種部署選項,包括 Vertex AI、Cloud Run、Google GenAI API、Iocal 環(huán)境等。
值得一提的是,英偉達直接優(yōu)化了 Gemma 3 模型,以確保開發(fā)者在從 Jetson Nano 到最新的 Blackwell 芯片上都能獲得最高性能。Gemma 3 現(xiàn)已在英偉達 API 目錄中,開發(fā)者只需調用 API 即可實現(xiàn)快速原型設計。
英偉達 API 目錄:https://build.nvidia.com/search?q=gemma
Gemma 3 還針對 Google Cloud TPU 進行了優(yōu)化,并通過開源 ROCm 堆棧與 AMD GPU 集成。
結語:低硬件需求模型受捧,谷歌 Gemma 3 學術計劃開啟
對 DeepSeek 等模型的關注,凸顯出開發(fā)者對硬件要求較低的大模型的興趣。
因此,為了進一步促進學術研究突破,谷歌還推出了 Gemma 3 學術計劃。學術研究人員可以申請 Google Cloud 積分(每個獎勵價值 10000 美元),以加速他們基于 Gemma 3 的研究。申請表今天開放,并將持續(xù)開放四個星期。