日本一区二区三区久久-日本一区二区三区久久精品-日本一区二区三区日本免费-日本一区二区三区在线观看视频-国产不卡免费视频-国产不卡视频

關(guān)于ZAKER 合作

阿里通義 Qwen3 上線 ,開源大軍再添一名猛將

4 月 29 日,通義 App 與通義網(wǎng)頁(yè)版全面上線阿里新一代通義千問開源模型 Qwen3。用戶可以第一時(shí)間在通義 App 和網(wǎng)頁(yè)版中的專屬智能體 " 千問大模型 ",以及主對(duì)話頁(yè)面,體驗(yàn)到最強(qiáng)開源模型的智能能力。

Qwen3 一經(jīng)發(fā)布便登頂全球最強(qiáng)開源模型,包含 8 款不同尺寸,均為全新的 " 混合推理模型 ",智能水平大幅提升的同時(shí)也更省算力。

其中,旗艦?zāi)P?Qwen3-235B-A22B 是一款混合專家(MoE)模型,該模型創(chuàng)下所有國(guó)產(chǎn)模型及全球開源模型的性能新高。在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測(cè)試中,Qwen3-235B-A22B 展現(xiàn)出多項(xiàng)具有競(jìng)爭(zhēng)力的數(shù)據(jù),直逼 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級(jí)模型。

除此之外,小型 MoE 模型 Qwen3-30B-A3B 的激活參數(shù)數(shù)量是 QwQ-32B 的 10%,表現(xiàn)更勝一籌。而 Qwen3-32B 是一款稠密(Dense)模型,部署成本低、穩(wěn)定高效,是企業(yè)部署首選。

通義還開源了兩個(gè) MoE 模型的權(quán)重:一個(gè)是擁有 2350 多億總參數(shù)和 220 多億激活參數(shù)的 Qwen3-235B-A22B,一個(gè)是擁有約 300 億總參數(shù)和 30 億激活參數(shù)的小型 MoE 模型 Qwen3-30B-A3B。此外,六個(gè) Dense 模型也已開源,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在 Apache 2.0 許可下開源。

目前, Qwen3-30B-A3B 等經(jīng)過后訓(xùn)練的模型已在 Hugging Face、ModelScope 和 Kaggle 等平臺(tái)上開放使用。用戶可在 Qwen Chat 網(wǎng)頁(yè)版 ( chat.qwen.ai ) 和通義 APP 中試用 Qwen3。

深思考,多語(yǔ)言

Qwen3 支持兩種思考模式:

深入思考:在這種模式中,模型會(huì)逐步推理,經(jīng)過深思熟慮后給出最終答案,非常適合需要深入思考的復(fù)雜問題。

快速思考:在這種模式中,模型提供快速、近乎即時(shí)的響應(yīng),適用于那些對(duì)速度要求高于深度的簡(jiǎn)單問題。

用戶可以根據(jù)具體任務(wù)控制模型進(jìn)行 " 思考 " 的程度,復(fù)雜的問題可以通過深入思考來解決,而簡(jiǎn)單的問題則可以通過快速作答。

值得關(guān)注的是,這兩種模式的結(jié)合大大增強(qiáng)了模型實(shí)現(xiàn)穩(wěn)定且高效的 " 思考預(yù)算 " 控制能力,讓用戶能夠更輕松地為不同任務(wù)配置特定的預(yù)算,在成本效益和推理質(zhì)量之間實(shí)現(xiàn)更優(yōu)的平衡。

除了多種思考模式,Qwen3 模型還支持多語(yǔ)言功能,涵蓋了 119 種語(yǔ)言和方言。

X 上網(wǎng)友也紛紛給出好評(píng)!

網(wǎng)友表示,Qwen 3 能快能慢,答案精準(zhǔn)。對(duì)于編碼,它運(yùn)行良好。對(duì)于數(shù)學(xué),它保持平靜。對(duì)于語(yǔ)言,它非常真實(shí)。

" 開源模型已經(jīng)很久沒有這么好了。"

預(yù)訓(xùn)練,后訓(xùn)練

Qwen3 預(yù)訓(xùn)練實(shí)現(xiàn)了三重升級(jí):

第一重,數(shù)據(jù)增強(qiáng)。預(yù)訓(xùn)練語(yǔ)料規(guī)模達(dá) 36 萬(wàn)億 token,是 Qwen2.5 的 2 倍,覆蓋 119 種語(yǔ)言。通義通過多源數(shù)據(jù)構(gòu)建了強(qiáng)大的數(shù)據(jù)集:

網(wǎng)絡(luò)數(shù)據(jù) +PDF 文檔提取(Qwen2.5-VL 處理)

專家模型合成數(shù)學(xué) / 代碼數(shù)據(jù)(Qwen2.5-Math/Coder 生成教材 / 問答 / 代碼)

第二重,階段訓(xùn)練。預(yù)訓(xùn)練過程分為三個(gè)階段:

S1 基礎(chǔ)訓(xùn)練:30 萬(wàn)億 token(上下文長(zhǎng)度為 4K token),建立基礎(chǔ)能力

S2 知識(shí)強(qiáng)化:5 萬(wàn)億 token,提升 STEM/ 編程 / 推理數(shù)據(jù)占比

S3 長(zhǎng)文本適應(yīng):32K token 上下文訓(xùn)練,優(yōu)化長(zhǎng)文本處理

第三重,性能突破。

Dense 模型:小參數(shù)量對(duì)標(biāo) Qwen2.5(如 1.7B ≈ 3B),STEM/ 編程 / 推理能力反超 Qwen2.5

MoE 模型:使用 10% 激活參數(shù)達(dá)到 Qwen2.5 Dense 水平,訓(xùn)練推理成本大幅降低

后訓(xùn)練方面,通義實(shí)施了一個(gè)四階段的訓(xùn)練流程:

長(zhǎng)思維鏈冷啟動(dòng):涵蓋數(shù)學(xué)、代碼、邏輯推理和 STEM 問題等多種任務(wù)和領(lǐng)域,配備基本推理能力

長(zhǎng)思維鏈強(qiáng)化學(xué)習(xí):大規(guī)模強(qiáng)化學(xué)習(xí),基于規(guī)則的獎(jiǎng)勵(lì)增強(qiáng)模型的探索和鉆研能力

思維模式融合:整合非思考模式,確保推理和快速響應(yīng)能力無(wú)縫結(jié)合

通用強(qiáng)化學(xué)習(xí):應(yīng)用強(qiáng)化學(xué)習(xí)于指令遵循、格式遵循和 Agent 能力等在內(nèi)的 20 多個(gè)通用領(lǐng)域,增強(qiáng)模型的通用能力并糾正不良行為

Qwen3 使用演示

首先來看 Hugging Face transformers 中使用 Qwen3-30B-A3B 的標(biāo)準(zhǔn)示例:

要禁用思考模式,只需對(duì)參數(shù) enable_thinking 進(jìn)行如下修改:

可以使用 sglang>=0.4.6.post1 或 vllm>=0.8.4 來創(chuàng)建一個(gè)與 OpenAI API 兼容的 API endpoint:

若要禁用思考模式,可以通過移除參數(shù) --reasoning-parser(以及 --enable-reasoning)。

如果用于本地開發(fā),可以通過運(yùn)行簡(jiǎn)單的命令 ollama run qwen3:30b-a3b 來使用 ollama 與模型進(jìn)行交互,也可以使用 LMStudio 或者 llama.cpp 以及 ktransformers 等代碼庫(kù)進(jìn)行本地開發(fā)。

還有一種軟切換機(jī)制,允許用戶在 enable_thinking=True 時(shí)動(dòng)態(tài)控制模型的行為,只需在用戶提示或系統(tǒng)消息中添加 /think 和 /no_think,就可以逐輪切換模型的思考模式:

Qwen3 在工具調(diào)用方面同樣表現(xiàn)出色。Qwen-Agent 內(nèi)部封裝了工具調(diào)用模板和工具調(diào)用解析器,降低代碼復(fù)雜性:

今年 1 月份千問發(fā)布 Qwen2.5-Max,性能比肩 DeepSeek V3、GPT-4 和 Claude-3.5-Sonnet。短短三個(gè)月又迎來 Qwen3,阿里在 AGI 這條路上又完成了一個(gè)里程碑。此次的亮點(diǎn)旨在 " 雙模推理 " 技術(shù)——允許用戶在深度推理的思考模式與及時(shí)響應(yīng)的非思考模式間自由切換,并提供計(jì)算資源動(dòng)態(tài)分配接口,為不同場(chǎng)景需求提供精準(zhǔn)算力支持。

未來,通義團(tuán)隊(duì)計(jì)劃從擴(kuò)展數(shù)據(jù)規(guī)模、增加模型大小、延長(zhǎng)上下文長(zhǎng)度、拓寬模態(tài)范圍等方面提升模型性能,從訓(xùn)練模型的時(shí)代,慢慢過渡到訓(xùn)練 Agent 的時(shí)代。

參考資料:https://mp.weixin.qq.com/s/OvobsCPW0IwxeSm8pljv-A

雷峰網(wǎng)

相關(guān)標(biāo)簽

相關(guān)閱讀

最新評(píng)論

沒有更多評(píng)論了
主站蜘蛛池模板: 在线观看国产一区 | 免费视频一区二区 | 伊在人亚洲香蕉精品区 | 亚洲免费视频网站 | 看性过程三级视频在线观看 | 国产精品爱久久久久久久 | 欧美高清一区二区三 | 成人性色生活片全黄 | 日本精品久久 | 亚洲精品免费在线 | 狠狠色狠狠色综合久久一 | 911国产自产精选 | 99久久国产免费 - 99久久国产免费 | 在线亚洲精品 | 中文字幕综合在线 | 一区二区三区视频网站 | 午夜毛片视频高清不卡免费 | 亚洲精品中文字幕一区在线 | 亚洲午夜网站 | 韩国一级特黄毛片大 | 欧美在线视频免费 | 国内精品国语自产拍在线观看55 | 欧美高清视频在线观看 | 自拍偷拍二区 | 国产精品大全国产精品 | 在线观看国产情趣免费视频 | 欧美精品videosbestsex另类 | 日本肥老妇色xxxxx日本老妇 | 色网址在线 | 亚洲综合伊人色一区 | 久久精品视频免费 | 国产日韩精品一区在线观看播放 | 亚洲免费看片 | 高清一区二区三区四区五区 | 99久久精品免费看国产一区二区三区 | 一级特黄aaa大片 | 中文字幕在线看视频一区二区三区 | 日韩一级视频在线观看播放 | 免费在线看a | 国产一区欧美二区 | 欧美最黄视频 |