告別 CLIP 痛點,更懂語義關聯的跨模態理解新 SOTA 來了!
格靈深瞳、阿里 ModelScope 團隊,以及通義實驗室機器智能團隊聯合發布通用多模態嵌入新框架 UniME,一經推出就刷新 MMEB 訓練榜紀錄。
UniME 作為一個創新性的兩階段框架,所展現的卓越的組合理解力,幫助 MLLMs 具備學習適用于各種下游任務的判別性表征的能力,并在多個任務中達到了新的 SOTA。
UniME 訓練框架拆解第一階段:文本判別知識蒸餾
訓練
受 E5V 等之前研究的啟發,研究團隊第一階段選擇使用純文本數據來增強了 MLLM 中 LLM 語言組件的嵌入能力。
由于 LLM 采用自回歸解碼器架構,因果掩碼機制會從本質上限制了它們的判別能力。
為了解決這一限制,團隊引入了如圖所示的文本判別知識蒸餾。
從最先進的基于 LLM 的嵌入模型 NV-Embed V2(該模型在對比訓練中移除了因果注意力掩碼并使用多個多樣化的數據集進行訓練)中轉移知識。
具體來說,團隊首先將 LLM 組件從 MLLM 架構中分離出來,并使用嵌入提示處理僅文本輸入:" Summary the above sentences in one word: n"。
然后,從最終令牌的隱藏狀態獲得規范化的學生文本嵌入和離線提取的教師文本嵌入,其中是批量大小,是嵌入的維度。
隨后,通過最小化教師模型和學生模型嵌入之間的 Kullback-Leibler(KL)散度來實施判別性分布對齊 :
其中是用來軟化分布表示的溫度超參數。
通過在一個批次內不同樣本之間的關系蒸餾,該方法在相同數據和訓練條件下相較于直接使用對比學習在下游任務中展示出顯著的性能提升。
推理
在訓練階段,此方法僅使用純文本輸入,并單獨優化多模態語言模型架構中的語言模型組件,同時保持其他參數不變。
在推理時,恢復原始的視覺編碼器和投影層,以啟用多模態處理。
對于單模態輸入(文本或圖像),使用特定于模態的標準化提示。
對于圖文交錯的輸入,獨立處理每種模態及其相應的提示,并通過元素級求和聚合嵌入從而得到最終的多模態表示。
第二階段:困難負樣本增強指令微調
在完成文本判別知識蒸餾截斷的訓練后,UniME 已經具備了初步的判別能力但表現出較弱的視覺敏感性,這種不敏感導致圖文對齊出現偏差,并限制了判別性能。
此外,第一階段使用的通用指令提示限制了 UniME 在復雜檢索任務中的效果。
為了解決這些限制,研究人員引入了一個額外的困難負例增強指令調整階段,該階段目的在于:
1. 進一步增強模型判別能力。
2. 改善模型跨模態對齊。
3. 加強下游任務中的指令跟隨能力。
錯誤負樣本污染
訓練批次中錯誤負樣本的存在妨礙了在標準 InfoNCE 損失下有效區分困難負樣本。
為了緩解這一問題,團隊引入了一個基于 Query 和正樣本相似度閾值的過濾機制,定義為:,其中是用來控制閾值邊界的超參數。
在訓練期間,排除所有與 Query 相似度超過的負樣本來過濾錯誤負樣本同時保留具有挑戰性的困難負樣本。
困難負樣本采樣
困難負樣本在標簽上與正樣本不同但在向量空間中非常接近,這類具有挑戰性的樣本能夠在對比學習過程中顯著增強模型的判別能力。
相比之下,簡單負樣本產生的梯度微不足道,對學習過程的貢獻極小。
因此團隊提出一種困難負樣本采樣策略,旨在優化訓練效率和判別性能。
由于文本判別知識蒸餾階段之后 UniME 已經具備了初步的判別能力,在此能力基礎上,研究人員在每個訓練批次中抽樣個對應的困難負樣本,如下所示:
其中和分別表示經過篩選的錯誤負樣本候選和正樣本候選,是查詢嵌入,表示所有候選嵌入,函數計算成對相似度得分,選擇得分最高的前個候選作為困難負例。
訓練目標
在獲取了查詢的嵌入()、正樣本候選()和困難負樣本候選()后,我們使用噪聲對比估計(InfoNCE)損失對批次內采樣的困難負樣本進行如下處理:
其中表示所有困難負例的集合,是一個溫度超參數。
訓練食譜
第一階段:文本判別知識蒸餾
團隊采用 QLoRA 對大型語言模型組件進行參數高效的微調。
這一階段僅使用純文本輸入并僅訓練極少的參數(通常不超過總數的 5%),完整訓練 Phi3.5-V 和 LLaVA-1.6 分別需要大約 1 小時和 2 小時。
第二階段:困難負樣本增強指令微調
為了克服較大批量 MLLM 訓練時的 GPU 內存限制,研究人員采用了兩種策略:
參照 VLM2Vec,使用了 GradCache 梯度緩存技術將對比損失計算和編碼器更新的反向傳播分離;
采用 QLoRA 對 MLLM 內所有參數進行參數高效的微調。
將這兩種策略進行組合有效地促進了訓練效率同時顯著降低訓練時的內存開銷。
實戰性能全驗證訓練數據
研究人員在第一階段的文本判別知識蒸餾中使用了 Natural Language Inference ( NLI ) 數據集,該數據集包含約 273k 個句子對。
對于困難負例增強指令調優階段,使用了 MMEB 基準提供的訓練數據集,涵蓋了四個核心多模態任務:分類、視覺問答、多模態檢索和視覺定位。
這一全面的訓練語料庫,結合了單模態和多模態輸入數據,共計 662k 經過精心策劃的訓練對,確保了模型在多樣化的多模態任務中的穩健適應。
下游評測
團隊評估了 MMEB 中的分布內(20 個測試集)和分布外(16 個測試集)基準,以評估 UniME 在多樣化檢索任務中的多模態嵌入能力。
為了進一步檢驗 UniME 的單模態嵌入性能,研究人員在多個跨模態檢索任務上進行了實驗,包括短標題圖文檢索(Flickr30K 和 COCO2014),長標題圖文檢索(ShareGPT4V 和 Urban1K),以及組合式檢索(SugarCrepe)。
實驗結果
多模態檢索
在表 1 中,展示了 UniME 與現有基線模型的性能對比,其中 IND 代表分布內數據集,OOD 代表分布外數據集,報告的分數是相應數據集上平均精確度,最佳結果用粗體標出,表示僅文本判別蒸餾的 UniME,表示文本判別蒸餾和困難負樣本增強指令調優的 UniME。
在相同的訓練數據和配置設置下,UniME 相比 E5-V 在不同的基礎模型上始終展示出顯著的性能提升。
使用 Phi3.5-V 模型時,UniME 的平均性能提高了 4.2%;采用 LLaVA-1.6 作為基礎模型時,UniME 的平均性能進一步提高了 4.1%。
這些顯著的性能提升主要歸功于團隊提出的文本判別知識蒸餾方法可以更有效地增強 MLLM 中 LLM 語言組件的判別能力。
與 E5-V 相比,UniME 矩陣的對角線清晰度顯著增強,表明 UniME 學習到了更具判別性的表征。
在困難負樣本增強指令微調之后,UniME 的嵌入判別能力進一步提高。
與 VLM2Vec 相比,UniME 在 Phi3.5-V 和 LLaVA-1.6 基礎模型上分別實現了 1.3% 和 10.3% 的性能提升。
短 - 長標題跨模態檢索
如表 2 所示,團隊在零樣本跨模態檢索任務上評估了 UniME。
首先,在短標題數據集 Flickr30K 和 MSCOCO 上進行實驗。
在文本判別知識蒸餾階段之后,UniME 的檢索性能與 E5-V 相當。
隨后的困難負例增強指令調優進一步提升了 UniME 的表現,相較于 VLM2Vec 提高了 5.2%-11.3%。
對于在 ShareGPT4V 和 Urban1K 數據集上的長標題檢索任務,UniME 在所有指標上均表現出優越性能。
在文本判別蒸餾階段后,基于 Phi3.5-V 模型 UniME 展示了 1.3%-3.8% 的性能提升。
隨后通過困難負例增強指令調優的進一步增強,UniME 相較于 VLM2Vec 提高了 2.0%-8.3%。
值得注意的是,與 EVA-CLIP ( 8B ) 相比,UniME 在 Urban1K 數據集上的長標題檢索中,性能提升了 14.8% 和 18.1%。
這一顯著增強主要源于 EVA-CLIP ( 8B ) 受 77 文本輸入令牌長度的限制,從而嚴重阻礙了其傳達長標題完整語義信息的能力。
跨模態組合檢索
團隊在組合理解基準 SugarCrepe 上評估了 UniME 模型區分困難負樣本的能力。
如表 2 所示,UniME 在所有評估指標上均展示出最佳結果。
在文本判別知識蒸餾后,基于 Phi3.5-V 的 UniME 在關系替換、對象交換和屬性添加任務中分別比 E5-V 表現出 2.0%、1.0% 和 15.9% 的性能提升。
在第二階段困難負例增強指令微調后,UniME 的組合理解能力得到進一步增強,與 VLM2Vec 相比分別實現了 3.9%、4.2% 和 9.1% 的性能提升。
此外,與 EVA-CLIP ( 8B ) 相比,UniME 在這些任務上也顯示出了 4.2%、0.6% 和 6.6% 的提升,凸顯了其在區分困難負例方面的強大能力。
消融實驗
困難負樣本分析
在下圖中,展示了三種類型負樣本的訓練損失和裁剪前梯度范數:簡單負樣本(批次中最不相似的樣本),隨機負樣本(批次中隨機采樣的負樣本),以及困難負樣本(在移除正例和假負例后批次中最相似的負樣本)。
使用隨機負樣本,訓練損失比簡單負樣本收斂更慢,但最終接近零。
相比之下,困難負樣本帶來更大的挑戰,使得訓練損失始終保持在較高水平。
相應地,簡單負樣本的梯度范數最小,而困難負樣本的梯度范數明顯更高,相差數個數量級。
訓練階段的消融
團隊基于 Phi3.5-V 來對不同訓練階段進行了消融研究。
如表 3 所示,Phi3.5-V 的初始嵌入判別能力很弱。
在經過文本判別知識蒸餾后,模型在 MMEB 基準、短長標題跨模態檢索和組合檢索任務上分別獲得了 15%、19.5%、24.9%和 19.9%的性能提升。
如果僅進行第二階段負樣本增強指令微調,同一任務的性能提升分別為 38.5%、17.3%、21.3%和 14.0%。
值得注意的是,第二階段在 MMEB 基準的性能提升明顯超過第一階段,主要是由于模型在遵循下游任務復雜指令方面的能力得到了改善。
通過整合兩個訓練階段,UniME 模型在所有評估的下游任務中實現了最佳性能。
輸出分布的可視化
為了進一步探索 UniME 嵌入捕獲的語義表達,使用此提示 "<Image> Summary above image in one word: n",并在下圖中展示了不同訓練階段之前和之后,top-k 下一個預測詞匯的預測概率。
經過文本判別知識蒸餾后,詞匯轉向更具體的語義,包括 "cow"、"waterfront" 和 "house",盡管概率分布仍主要集中在 "Farm"。
在第二階段困難負樣本增強指令微調后,概率分布在與圖像語義一致的多個詞匯上變得更加均勻,從而使嵌入能夠更準確地表達圖像的語義內容,并增強其判別能力。
論文鏈接:https://arxiv.org/pdf/2504.17432
代碼鏈接:https://github.com/deepglint/UniME
項目鏈接:https://garygutc.github.io/UniME
模型鏈接:https://huggingface.co/DeepGlint-AI/UniME-LLaVA-OneVision-7B
魔搭社區:https://www.modelscope.cn/models/deepglint/UniME
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星標
科技前沿進展每日見