日本一区二区三区久久-日本一区二区三区久久精品-日本一区二区三区日本免费-日本一区二区三区在线观看视频-国产不卡免费视频-国产不卡视频

雷鋒網(wǎng) 前天

阿里通義 Qwen3 上線，開源大軍再添一名猛將

4 月 29 日，通義 App 與通義網(wǎng)頁(yè)版全面上線阿里新一代通義千問開源模型 Qwen3。用戶可以第一時(shí)間在通義 App 和網(wǎng)頁(yè)版中的專屬智能體 " 千問大模型 "，以及主對(duì)話頁(yè)面，體驗(yàn)到最強(qiáng)開源模型的智能能力。

Qwen3 一經(jīng)發(fā)布便登頂全球最強(qiáng)開源模型，包含 8 款不同尺寸，均為全新的 " 混合推理模型 "，智能水平大幅提升的同時(shí)也更省算力。

其中，旗艦?zāi)Ｐ?Qwen3-235B-A22B 是一款混合專家（MoE）模型，該模型創(chuàng)下所有國(guó)產(chǎn)模型及全球開源模型的性能新高。在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測(cè)試中，Qwen3-235B-A22B 展現(xiàn)出多項(xiàng)具有競(jìng)爭(zhēng)力的數(shù)據(jù)，直逼 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級(jí)模型。

除此之外，小型 MoE 模型 Qwen3-30B-A3B 的激活參數(shù)數(shù)量是 QwQ-32B 的 10%，表現(xiàn)更勝一籌。而 Qwen3-32B 是一款稠密（Dense）模型，部署成本低、穩(wěn)定高效，是企業(yè)部署首選。

通義還開源了兩個(gè) MoE 模型的權(quán)重：一個(gè)是擁有 2350 多億總參數(shù)和 220 多億激活參數(shù)的 Qwen3-235B-A22B，一個(gè)是擁有約 300 億總參數(shù)和 30 億激活參數(shù)的小型 MoE 模型 Qwen3-30B-A3B。此外，六個(gè) Dense 模型也已開源，包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B，均在 Apache 2.0 許可下開源。

目前， Qwen3-30B-A3B 等經(jīng)過后訓(xùn)練的模型已在 Hugging Face、ModelScope 和 Kaggle 等平臺(tái)上開放使用。用戶可在 Qwen Chat 網(wǎng)頁(yè)版 ( chat.qwen.ai ) 和通義 APP 中試用 Qwen3。

深思考，多語(yǔ)言

Qwen3 支持兩種思考模式：

深入思考：在這種模式中，模型會(huì)逐步推理，經(jīng)過深思熟慮后給出最終答案，非常適合需要深入思考的復(fù)雜問題。

快速思考：在這種模式中，模型提供快速、近乎即時(shí)的響應(yīng)，適用于那些對(duì)速度要求高于深度的簡(jiǎn)單問題。

用戶可以根據(jù)具體任務(wù)控制模型進(jìn)行 " 思考 " 的程度，復(fù)雜的問題可以通過深入思考來解決，而簡(jiǎn)單的問題則可以通過快速作答。

值得關(guān)注的是，這兩種模式的結(jié)合大大增強(qiáng)了模型實(shí)現(xiàn)穩(wěn)定且高效的 " 思考預(yù)算 " 控制能力，讓用戶能夠更輕松地為不同任務(wù)配置特定的預(yù)算，在成本效益和推理質(zhì)量之間實(shí)現(xiàn)更優(yōu)的平衡。

除了多種思考模式，Qwen3 模型還支持多語(yǔ)言功能，涵蓋了 119 種語(yǔ)言和方言。

X 上網(wǎng)友也紛紛給出好評(píng)！

網(wǎng)友表示，Qwen 3 能快能慢，答案精準(zhǔn)。對(duì)于編碼，它運(yùn)行良好。對(duì)于數(shù)學(xué)，它保持平靜。對(duì)于語(yǔ)言，它非常真實(shí)。

" 開源模型已經(jīng)很久沒有這么好了。"

預(yù)訓(xùn)練，后訓(xùn)練

Qwen3 預(yù)訓(xùn)練實(shí)現(xiàn)了三重升級(jí)：

第一重，數(shù)據(jù)增強(qiáng)。預(yù)訓(xùn)練語(yǔ)料規(guī)模達(dá) 36 萬(wàn)億 token，是 Qwen2.5 的 2 倍，覆蓋 119 種語(yǔ)言。通義通過多源數(shù)據(jù)構(gòu)建了強(qiáng)大的數(shù)據(jù)集：

網(wǎng)絡(luò)數(shù)據(jù) +PDF 文檔提取（Qwen2.5-VL 處理）

專家模型合成數(shù)學(xué) / 代碼數(shù)據(jù)（Qwen2.5-Math/Coder 生成教材 / 問答 / 代碼）

第二重，階段訓(xùn)練。預(yù)訓(xùn)練過程分為三個(gè)階段：

S1 基礎(chǔ)訓(xùn)練：30 萬(wàn)億 token（上下文長(zhǎng)度為 4K token），建立基礎(chǔ)能力

S2 知識(shí)強(qiáng)化：5 萬(wàn)億 token，提升 STEM/ 編程 / 推理數(shù)據(jù)占比

S3 長(zhǎng)文本適應(yīng)：32K token 上下文訓(xùn)練，優(yōu)化長(zhǎng)文本處理

第三重，性能突破。

Dense 模型：小參數(shù)量對(duì)標(biāo) Qwen2.5（如 1.7B ≈ 3B），STEM/ 編程 / 推理能力反超 Qwen2.5

MoE 模型：使用 10% 激活參數(shù)達(dá)到 Qwen2.5 Dense 水平，訓(xùn)練推理成本大幅降低

后訓(xùn)練方面，通義實(shí)施了一個(gè)四階段的訓(xùn)練流程：

長(zhǎng)思維鏈冷啟動(dòng)：涵蓋數(shù)學(xué)、代碼、邏輯推理和 STEM 問題等多種任務(wù)和領(lǐng)域，配備基本推理能力

長(zhǎng)思維鏈強(qiáng)化學(xué)習(xí)：大規(guī)模強(qiáng)化學(xué)習(xí)，基于規(guī)則的獎(jiǎng)勵(lì)增強(qiáng)模型的探索和鉆研能力

思維模式融合：整合非思考模式，確保推理和快速響應(yīng)能力無(wú)縫結(jié)合

通用強(qiáng)化學(xué)習(xí)：應(yīng)用強(qiáng)化學(xué)習(xí)于指令遵循、格式遵循和 Agent 能力等在內(nèi)的 20 多個(gè)通用領(lǐng)域，增強(qiáng)模型的通用能力并糾正不良行為

Qwen3 使用演示

首先來看 Hugging Face transformers 中使用 Qwen3-30B-A3B 的標(biāo)準(zhǔn)示例：

要禁用思考模式，只需對(duì)參數(shù) enable_thinking 進(jìn)行如下修改：

可以使用 sglang>=0.4.6.post1 或 vllm>=0.8.4 來創(chuàng)建一個(gè)與 OpenAI API 兼容的 API endpoint：

若要禁用思考模式，可以通過移除參數(shù) --reasoning-parser（以及 --enable-reasoning）。

如果用于本地開發(fā)，可以通過運(yùn)行簡(jiǎn)單的命令 ollama run qwen3:30b-a3b 來使用 ollama 與模型進(jìn)行交互，也可以使用 LMStudio 或者 llama.cpp 以及 ktransformers 等代碼庫(kù)進(jìn)行本地開發(fā)。

還有一種軟切換機(jī)制，允許用戶在 enable_thinking=True 時(shí)動(dòng)態(tài)控制模型的行為，只需在用戶提示或系統(tǒng)消息中添加 /think 和 /no_think，就可以逐輪切換模型的思考模式：

Qwen3 在工具調(diào)用方面同樣表現(xiàn)出色。Qwen-Agent 內(nèi)部封裝了工具調(diào)用模板和工具調(diào)用解析器，降低代碼復(fù)雜性：

今年 1 月份千問發(fā)布 Qwen2.5-Max，性能比肩 DeepSeek V3、GPT-4 和 Claude-3.5-Sonnet。短短三個(gè)月又迎來 Qwen3，阿里在 AGI 這條路上又完成了一個(gè)里程碑。此次的亮點(diǎn)旨在 " 雙模推理 " 技術(shù)——允許用戶在深度推理的思考模式與及時(shí)響應(yīng)的非思考模式間自由切換，并提供計(jì)算資源動(dòng)態(tài)分配接口，為不同場(chǎng)景需求提供精準(zhǔn)算力支持。

未來，通義團(tuán)隊(duì)計(jì)劃從擴(kuò)展數(shù)據(jù)規(guī)模、增加模型大小、延長(zhǎng)上下文長(zhǎng)度、拓寬模態(tài)范圍等方面提升模型性能，從訓(xùn)練模型的時(shí)代，慢慢過渡到訓(xùn)練 Agent 的時(shí)代。

參考資料：https://mp.weixin.qq.com/s/OvobsCPW0IwxeSm8pljv-A

雷峰網(wǎng)

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平臺(tái)

一起剪

ZAKER旗下免費(fèi)視頻剪輯工具

相關(guān)標(biāo)簽

阿里

日本一区二区三区久久-日本一区二区三区久久精品-日本一区二区三区日本免费-日本一区二区三区在线观看视频-国产不卡免费视频-国产不卡视频

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會(huì)解決方案

元宇宙營(yíng)銷解決方案

元宇宙會(huì)展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語(yǔ)陪練

我的訂閱

阿里通義 Qwen3 上線 ，開源大軍再添一名猛將

宙世代

一起剪

相關(guān)閱讀

5年磨礪告別Windows PC市場(chǎng)開啟“新故事”

國(guó)產(chǎn)首款5nm自研SoC登場(chǎng)！聯(lián)想YOGA Pad Pro 14.5平板首發(fā)

72888元！徠卡發(fā)布M11-P Safari特別版相機(jī)：精致如藝術(shù)品

超級(jí)玩家連續(xù)發(fā)力 Vidda貼貼壁紙電視、C3系列投影讓行業(yè)耳目一新

1445元起！一圖讀懂聯(lián)想moto edge 60系列：搭載天禧個(gè)人超級(jí)智能體

國(guó)補(bǔ)價(jià)5499元起！聯(lián)想moto razr 60 Ultra發(fā)布：首款驍龍8至尊版小折疊

專注輕辦公場(chǎng)景，AR+AI眼鏡品牌INAIR完成數(shù)千萬(wàn)元融資

打破國(guó)際巨頭技術(shù)壟斷，首創(chuàng)柔性氫液化設(shè)備，「科安創(chuàng)能」完成數(shù)千萬(wàn)元Pre-A+輪融資

從Super idol到內(nèi)個(gè)內(nèi)個(gè)，神曲憑啥能魔音貫?zāi)X？

新舊勢(shì)力再較量，數(shù)據(jù)庫(kù)不需要投機(jī)

騰訊元寶又叒叕上新：一句話即可生成Mermaid圖表

華為首款鴻蒙電腦確認(rèn)搭載自研麒麟X90：系統(tǒng)、處理器全國(guó)產(chǎn)

19.9億元資金流向：先進(jìn)制造與機(jī)器人熱度不減，長(zhǎng)城重工完成5.2億元戰(zhàn)略融資

vivo副總裁曝光S30 Pro mini：6.31英寸＋6500mAh電池

被“高潮針”盜圖，2年來我經(jīng)歷了什么

最新評(píng)論

雷峰網(wǎng)

熱門推薦

阿里通義 Qwen3 上線，開源大軍再添一名猛將