作者 | 金碧輝
編輯 | 程茜
智東西 7 月 1 日消息,阿里通義實驗室全球首個應(yīng)用思維鏈(CoT)技術(shù)的音頻生成模型 ThinkSound 今天開源,該模型首次將 CoT 引入音頻生成領(lǐng)域,通過多階段推理框架解決傳統(tǒng)視頻轉(zhuǎn)音頻(V2A)技術(shù)的音畫錯位問題,并開源配套數(shù)據(jù)集 AudioCoT。
ThinkSound 模型可直接應(yīng)用于影視后期制作,為 AI 生成的視頻自動匹配精準的環(huán)境噪音與爆炸聲效;服務(wù)于游戲開發(fā)領(lǐng)域,實時生成雨勢變化等動態(tài)場景的自適應(yīng)音效;同時可以無障礙視頻生產(chǎn),為視障用戶同步生成畫面描述與環(huán)境音效。
ThinkSound 模型生成的視頻內(nèi)容
目前,ThinkSound 一共有 ThinkSound-1.3B、ThinkSound-724M、ThinkSound-533M,開發(fā)者可按需調(diào)用適配。開發(fā)者可通過 GitHub、Hugging Face、魔搭社區(qū)免費調(diào)用 Apache 2.0 協(xié)議的開源代碼。
性能驗證顯示,在 VGGSound 測試集上,ThinkSound 的 Fréchet 音頻距離降至 34.56,較此前主流模型 MMAudio 顯著提升 20.1%;時序?qū)R誤差率僅 9.8%,同比降低 37.2%;聲音事件判別指標 KLPaSST 與 KLPaNNs 分別達到 1.52 和 1.32,均為當前同類模型最佳結(jié)果。在面向影視場景的 MovieGen Audio Bench 測試中,其表現(xiàn)大幅領(lǐng)先 Meta 的 Movie Gen Audio 模型。
技術(shù)主頁:
https://thinksound-project.github.io/
開源地址:
https://huggingface.co/FunAudioLLM
GitHub:https://github.com/liuhuadai/ThinkSound
體驗地址:
https://huggingface.co/spaces/FunAudioLLM/ThinkSound
一、三階段流程完成推理,模擬人類音效師創(chuàng)作流程
ThinkSound 模型的突破性在于其成功模擬了專業(yè)音效師的核心工作邏輯,通過三階段推理流程實現(xiàn)自動化音效生成。
首先,模型執(zhí)行視覺事件解析,逐幀分析視頻內(nèi)容,精準識別關(guān)鍵物理事件如玻璃碎裂軌跡或腳步移動速度,并同時判斷畫面中物體的材質(zhì)屬性,例如金屬、木材或液體,輸出帶時間戳的結(jié)構(gòu)化事件與屬性數(shù)據(jù)。
然后模型進入聲學屬性推導(dǎo)階段,基于解析出的視覺特征,運用物理規(guī)則進行映射:依據(jù)材質(zhì)類型推導(dǎo)聲音的頻譜特性,金屬材質(zhì)會產(chǎn)生高頻共振;根據(jù)運動強度計算聲波能量,雨滴高度直接影響混響強度;同時模擬環(huán)境空間如密閉房間或開放廣場對聲場反射的影響,最終生成物理特性準確的聲學參數(shù)矩陣。
最后是時序?qū)R合成階段,模型通過動態(tài)對齊引擎將聲學參數(shù)與視頻幀精確綁定,利用時間編碼器自適應(yīng)補償畫面跳幀或慢動作變化以確保聲波連續(xù)性,并采用分層渲染技術(shù)實時合成音頻流,包含基礎(chǔ)音色層、環(huán)境反射層及運動特效層。
這一流程實現(xiàn)了與畫面幀的精準同步,其時序誤差率低至僅 9.8%,較傳統(tǒng)模型大幅降低 37.2%,從而將傳統(tǒng)手工音效制作中耗時數(shù)小時的音畫對齊工作壓縮至分鐘級完成。
在生物聲學場景中,ThinkSound 模型生成的嬰兒哭聲音頻嚴格匹配表情動作變化,其音高動態(tài)范圍與呼吸節(jié)奏波動精準遵循嬰幼兒生理發(fā)聲模式,通過時序?qū)R算法確保哭聲強度峰值與面部扭曲程度實現(xiàn)幀級同步。
ThinkSound-1.3B 的參數(shù)量為 13 億,是當前開源版本中規(guī)模最大的模型,適合專業(yè)級音效生成任務(wù);ThinkSound-724M 的參數(shù)量為 7.24 億,該模型平衡了生成質(zhì)量與計算效率。適合需要較高音效質(zhì)量但資源受限的場景;ThinkSound-533M 的參數(shù)量為 5.33 億),定位為輕量級入門模型。在保證基礎(chǔ)音效生成能力的同時,顯著降低硬件門檻,適用于快速原型開發(fā)和教育研究用途。
二、整合總計 2531.8 小時音頻,構(gòu)建全球首個 AudioCoT 數(shù)據(jù)集
為突破傳統(tǒng)音頻生成模型 " 黑箱操作 "、缺乏可解釋設(shè)計邏輯的瓶頸,阿里團隊構(gòu)建了業(yè)界首個且規(guī)模最大的帶思維鏈標注音頻數(shù)據(jù)集 AudioCoT。
該數(shù)據(jù)集整合了總計 2531.8 小時的音頻、視覺素材,涵蓋影視片段庫、高保真自然聲場采集及國際知名專業(yè)音效庫。
AudioCoT 的核心突破在于其思維鏈標注體系:每條數(shù)據(jù)均由專業(yè)團隊深度標注出完整的邏輯鏈條。標注團隊從視覺事件分析識別畫面中的關(guān)鍵觸發(fā)元素,到聲學特性推理推導(dǎo)聲音應(yīng)有的物理和感知屬性,再到音效合成策略明確實現(xiàn)目標聲音的技術(shù)路徑。這種從視覺輸入到聲音輸出的完整邏輯映射,為模型構(gòu)建了理解聲音設(shè)計 " 為什么 " 和 " 怎么做 " 的知識圖譜。
ThinkSound 在訓練中不僅學習生成聲音,還能夠基于畫面元素自動推理并調(diào)整生成聲音的屬性,改變了依賴預(yù)設(shè)標簽的黑箱生成模式,實現(xiàn)了生成高質(zhì)量音頻的同時 " 知其所以然 ",增強 AI 生成音效的真實感和同步性。
三、關(guān)鍵指標超越主流方案,時序?qū)R誤差率降低 37%
在權(quán)威測試集 VGGSound 上,ThinkSound 的 Fréchet 音頻距離(FD)降至 34.56(對比 MMAudio 的 43.26),逼近真實音效分布;聲音事件判別精度 KLPaSST/KLPaNNs 達 1.52/1.32,ThinkSound 超越 MMAudio 等標桿模型。
在影視場景測試集 MovieGen Audio Bench 中,ThinkSound 以 20% 優(yōu)勢超越 Meta 的 Movie Gen Audio 模型,尤其在爆炸、金屬摩擦等復(fù)雜聲效的時序?qū)R誤差率降低 37%。
為驗證 ThinkSound 核心技術(shù)設(shè)計的必要性,阿里團隊展開消融實驗。
當前視頻生成音頻(V2A)技術(shù)長期面臨的核心痛點,是模型難以捕捉視覺事件與聲音之間的物理關(guān)聯(lián)。例如,玻璃碎裂的畫面本應(yīng)觸發(fā)高頻清脆聲,但傳統(tǒng)模型常輸出模糊的 " 破碎聲 " 或與畫面時序錯位的音效。其根源在于數(shù)據(jù)與建模的局限性,主流方案依賴文本、音頻的淺層匹配,缺乏對聲學物理規(guī)律的推理能力。例如,早期模型 Make-An-Audio 雖通過 CLAP 文本編碼器和頻譜自編碼器提升可控性,但仍無法解析 " 物體材質(zhì)如何影響聲音頻率 " 這類邏輯鏈。
同時,傳統(tǒng)模型還存在時序錯位問題,通用模型如 Meta 的 Movie Gen Audio 在復(fù)雜場景中常出現(xiàn)音畫不同步,例如爆炸聲滯后于火光畫面,因模型未建立事件因果鏈。
團隊將視頻的 CLIP 視覺特征與 T5 文本推理特征在時間軸上對齊融合,相比單獨輸入音頻特征,音畫同步精度提升 23%。
門控融合機制通過動態(tài)分配權(quán)重,例如會優(yōu)先處理視覺事件聲效而非環(huán)境背景音,在 KLPaSST 指標上實現(xiàn) 17% 的提升,F(xiàn)réchet 音頻距離降低 12%,超越常規(guī)的拼接融合與加法融合策略。
結(jié)語:ThinkSound 開源,阿里三大模型補全音頻工具鏈
ThinkSound 的發(fā)布標志著音頻生成從 " 能發(fā)聲 " 邁向 " 懂畫面 " 的智能階段。其技術(shù)價值不僅在于性能提升,更在于將專業(yè)音效設(shè)計流程標準化、自動化,把傳統(tǒng)需數(shù)小時的手工音畫對齊工作壓縮至分鐘級完成。
對產(chǎn)業(yè)而言,ThinkSound 與阿里此前開源 CosyVoice 2.0(語音合成)、Qwen2.5-Omni(全模態(tài)交互)形成技術(shù)矩陣,覆蓋從語音到環(huán)境音效的全場景音頻生成需求。開發(fā)者可基于此構(gòu)建影視配音、游戲?qū)崟r音效、無障礙視頻制作等低成本工具,尤其為中小創(chuàng)作者提供接近專業(yè)工作室的音頻生產(chǎn)能力。