5 月 6 日消息,國(guó)際權(quán)威大模型測(cè)評(píng)榜 LiveBench 公布了最新一期排名,阿里巴巴開源的新一代通義千問模型 Qwen3(簡(jiǎn)稱千問 3)斬獲全球開源模型冠軍,并在指令遵循(Instruction Following)這一關(guān)鍵能力上超越 o3 High、o4-Mini High、Gemini 2.5 pro 等頂級(jí)閉源模型位列全球第一。
據(jù)了解,LiveBench 榜單由圖靈獎(jiǎng)得主、Meta 首席 AI 科學(xué)家楊立昆(Yann LeCun)聯(lián)合紐約大學(xué)等機(jī)構(gòu)推出,從數(shù)學(xué)、推理、編程、語(yǔ)言理解等多個(gè)復(fù)雜維度全面評(píng)估大模型,并因其采用動(dòng)態(tài)更新的題庫(kù)而被譽(yù)為 " 全球首個(gè)無(wú)法作弊的模型基準(zhǔn)測(cè)試 "。在最新一期的 LiveBench 榜單上,千問 3 表現(xiàn)與 o4-mini、Claude3.7 等頂尖閉源模型相當(dāng),并超越 DeepSeek-R1 取得了全球開源模型冠軍。同時(shí),千問 3 還斬獲指令遵循這一細(xì)分領(lǐng)域的全球冠軍,這說明千問 3 具備全球頂級(jí)的語(yǔ)言理解和生成能力。
千問 3 于 4 月 29 日凌晨開源,是國(guó)內(nèi)首個(gè) " 混合推理模型 ",其參數(shù)量?jī)H為 DeepSeek-R1 的 1/3,性能全面提升的同時(shí)成本還大幅下降,引發(fā)大模型產(chǎn)業(yè)鏈連夜適配和接入浪潮:英偉達(dá)、英特爾、高通、聯(lián)發(fā)科、AMD、ARM、華為昇騰、壁仞科技等芯片平臺(tái)都已完成了千問 3 的適配,北上津杭等十余地算力平臺(tái)也已接入千問 3。截至目前,阿里通義已開源 200 多個(gè)模型,全球下載量超過 3 億次,千問的衍生模型數(shù)量超 10 萬(wàn),遠(yuǎn)超美國(guó) Llama,成為全球第一開源模型。
* 附 LiveBench 榜單官網(wǎng)鏈接:https://livebench.ai/#/