AI 音效已經進化成這樣了嗎??
打開聲音,來快速感受一下最新 feel:
模擬嬰兒哭聲,那叫一個高低起伏、蕩氣回腸,整個節奏和嬰兒表情姿態神同步了。
一輛火車由遠及近駛來,整個背景音也頗具空間層次感,毫不違和。
甚至連小號這種樂器演奏,聲音也能和演奏者的動作一一對上。
沒錯,這就是阿里通義語音團隊最新開源的泛音頻生成模型 ThinkSound,主要用于視頻配音,主打讓每一幀畫面都有專屬匹配音效。
據介紹,它首次將今年大熱的CoT 思維鏈推理引入了音頻領域,解決了傳統視頻配樂技術往往只能生成單調的背景音,而難以捕捉畫面中的動態細節和空間關系的難題。
就是說,AI 現在也能像專業音效師一樣逐步思考,通過捕捉視覺細節來生成音畫同步的高保真音頻。
官方測評顯示,ThinkSound 在業界知名的音視頻數據集 VGGSound 上,對比 6 種主流方法(Seeing&Hearing、V-AURA、FoleyCrafter、Frieren、V2A-Mapper 和 MMAudio),在核心指標上均實現了顯著提升。
會思考后,音畫同步更強了
為什么需要 " 會思考 " 的音頻生成模型?
其實這主要是因為,現有端到端視頻 - 音頻(V2A)生成技術難以捕捉音畫細節。
比如對于貓頭鷹何時在輕聲啾啾、何時振翅準備起飛,或者樹枝在振動時發出的輕微摩擦聲,由于缺乏對視覺—聲學細節的深入理解,生成的音頻往往顯得過于通用,有時甚至會出錯,導致音畫不匹配。
而引入鏈式思維(CoT)推理后,整個過程可以拆解為:先分析視覺動態、再推斷聲學屬性,最后按照時間順序合成與環境相符的音效。
這一模仿人類音效師的多階段創作流程,能精準建立起聲音和畫面之間的對應關系。
一言以蔽之,正如推理能力能提升語言模型的回答質量,CoT 也能增強 AI 生成音效的真實感與同步性。
玩法也很 easy,用戶僅需上傳一段視頻,模型就能自動 " 按幀匹配音效 " ——
給一段 Sora 模型生成的視頻,各種地上跑的、水里游的都能一鍵自動生成音效,仔細聽還能發現真實的環境噪音。
值得一提的是,理論上 ThinkSound 不限制上傳視頻的時長,但考慮到生成效果,當前團隊建議最佳視頻時長為 10s。
三階思維鏈驅動音頻生成
那么,鏈式思維推理具體如何發揮作用的呢?概括而言,ThinkSound 擁有兩大核心模塊:
鏈式推理的多模態大語言模型(MLLM)
基于流匹配的統一音頻生成模型
基于以上模塊,實現了一個三階思維鏈驅動的音頻生成過程。
按照團隊介紹,這一過程核心面臨兩個挑戰:
如何構建符合預期的 CoT?以及如何將 CoT 有效地注入到音頻流匹配模型中?
第一階段,基礎音效推理鏈構建(Foundational Foley CoT Generation)。
首先,ThinkSound 會同時分析音頻和視頻,從聲音、時間順序和內容三個角度理解發生了什么。
具體而言,團隊首先通過 VideoLLaMA2 生成 CoT 推理鏈,分別提取畫面中的運動動態(如貓頭鷹振翅瞬間)與場景語義(如夜晚森林環境)。
然后結合 Qwen2-Audio 生成的初步音頻描述,由 GPT-4.1-nano 輸出結構化的 CoT 步驟,確保推理包含事件識別、屬性推斷與因果順序,為后續合成模塊提供時空對齊精度。
第二階段,面向交互的對象級推理鏈構建(Interactive Object-Centric CoT Generation)。
接下來用戶可以點擊視頻里的某個部分,ThinkSound 會找出視頻中具體的聲音來源區域(如煙花、鳥、車等),進行單獨分析。
這時會用到 Grounded SAM-2(開源視頻目標定位與追蹤框架),來標注并跟蹤視頻中的 " 感興趣區域 "(ROI)。
所謂 " 感興趣區域 ",是指視頻中那些可能發出聲音或與音頻內容緊密相關的可見對象或區域,如一只正在叫的貓頭鷹(← ROI)對應著貓頭鷹鳴叫。
之后再把這些區域與原始聲音對照,分析具體哪一部分該保留、哪一部分是干擾;并融合其他視頻的 CoT 信息,輔助判斷應該怎么處理音頻。
第三階段,基于指令的音頻編輯推理鏈構建(Instruction-Based Audio Editing CoT Generation)。
最后用戶可以一句話(如 " 加點爆炸聲 "" 去掉人聲 ")下達編輯指令,ThinkSound 將根據原始音頻和推理鏈,執行編輯操作。
具體而言,它把指令與當前音頻對應的推理鏈進行融合,利用 GPT-4.1-nano 生成一套結構化的音頻編輯步驟。
最終,所有 CoT 指令都會被傳遞給統一音頻基礎模型,該模型基于條件流匹配 ( conditional flow matching ) 技術實現高保真音頻合成。
就是說,它能同時理解視頻畫面、文字描述和聲音上下文,并將這些信息融合起來,以逐步生成真實自然的音效。
AudioCoT:首個帶思維鏈標注的音頻數據集
與此同時,團隊還專門為 ThinkSound 構建了一個鏈式音頻推理數據集——AudioCoT。
數據集主要包括兩大類,時長總計2531.8 小時:
第一類:源自 VGGSound ( 453.6 小時 ) 和 AudioSet ( 287.5 小時),經 9.1 秒固定長度分段、剔除靜音片段、并特別排除了含人聲片段后精選而來的視頻—音頻對,涵蓋動物鳴叫、機械運轉、環境音效等真實場景。
第二類:源自 AudioSet-SL ( 262.6 小時 ) 、AudioCaps ( 112.6 小時 ) 、Freesound ( 1286.6 小時 ) 與 BBC Sound Effects ( 128.9 小時),利用多樣化的字幕 / 標簽描述加深模型對聽覺語義的理解。
有了以上數據后,團隊繼續通過一套精細的處理流程,來確保模型真正實現音畫同步。
這個流程分為三個主要階段:
音頻 - 文本對齊過濾:首先檢查音頻和文本描述是否匹配,如果其匹配度低(CLAP 分數小于 0.2),就會重新生成匹配,直到達到較好的質量,并且持續低分音頻樣本將被剔除。
目標跟蹤一致性:然后確保視頻中的物體與音頻對應,如果視頻中的目標在整個片段中都能保持可見,才會保留下來。那些視頻目標不清晰或者無法穩定跟蹤的片段會被去掉。
音頻組件的語義配對:最后通過 GPT-4.1-nano 來分析音頻的標簽,基于語義區分性(避免音頻提取和移除任務混淆)和上下文合理性(確保配對聲音在同一聲學場景中共現合理)兩個標準,確保音頻對語義明確且實用。
總之,借助以上架構和數據集,ThinkSound 能同時完成音頻生成和編輯任務。
更多實驗結果
除了在 VGGSound 上超越 6 種主流音頻生成方法,團隊還進行了消融實驗。
他們核心驗證了兩件事:
有推理和無推理,是否影響音頻生成質量?
在輸入音頻和視頻特征時,不同整合方法是否有影響?
結果發現,對比單純的 CLIP 文本編碼和 T5 鏈式推理,后者所生成音頻的真實感和質量大大提高。
此外,將 CLIP 的視覺特征和 T5 的文本推理結合起來,能進一步優化音頻的理解和表現。
而且門控融合(一個智能融合音頻和視頻特征的機制)能達到最好的效果,它在各個指標上都表現最優。
這項研究來自阿里通義語音團隊。
仔細梳理這個團隊在語音生成領域的一系列動作,不難發現他們已經在開源社區占據了一席之地。
就在上個月,團隊發布了語音生成大模型Cosyvoice 3.0,通過大規模數據預訓練和特殊設計的強化學習后訓練,它能提供多語言語音生成、零樣本語音復刻等功能。
加上其 1.0、2.0 系列,Cosyvoice 已在 GitHub 攬星14.9k,廣受開源社區喜愛。
它在廣泛的音頻理解生成類任務,如語音對話、語音識別、語音翻譯、情感識別上均獲得良好效果,且延遲較低。
相關論文也早已在 HuggingFace 上公開。
最后順便介紹一下論文作者。
論文唯一一作劉華岱,研究方向為 AI 音頻生成與多模態理解,至今為止在 ICML、ICLR、ACL 等國際頂級學術會議發表論文十余篇。
其中,他還以一作身份主導了 OmniAudio(ICML)、FlashAudio(ACL Oral)、AudioLCM(ACM MM)等開源音頻生成工作。
https://thinksound-project.github.io/
論文:
https://arxiv.org/pdf/2506.21448
開源地址:
https://github.com/liuhuadai/ThinkSound
https://huggingface.co/liuhuadai/ThinkSound
https://www.modelscope.cn/studios/AudioGeneral/ThinkSound
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
專屬 AI 產品從業者的實名社群,只聊 AI 產品最落地的真問題 掃碼添加小助手,發送「姓名 + 公司 + 職位」申請入群~
最新最專業的 AI 產品信息及分析
不定期發放的熱門產品內測碼
內部專屬內容與專業討論
點亮星標
科技前沿進展每日見