推理 token 減少 80%-90%,準確率變化不大,某些任務還能增加。
Zoom 團隊提出思維鏈替代品 " 草稿鏈 ",顯著降低延遲和算力成本。
此外,草稿鏈方法簡單且易于實現,不需要修改模型、微調或強化學習,只需更新提示詞中的示例即可,相關代碼和數據已在 GitHub 上開源。
第三方分析測算,對于每個月處理 100 萬個推理請求的企業, 可以將成本從思維鏈的 3800 美元降低到 760 美元,每月節省超過 3000 美元。
算數推理任務選擇 GSM8k 數據集,從準確率看,標準提示下 GPT-4o 和 Claude 3.5 Sonnet 的準確率分別僅 53.3% 和 64.6%,思維鏈使兩者均超 95%,草稿鏈也達到 91% 左右。
在 token 使用上,思維鏈生成約 200 個 token/ 響應,草稿鏈僅約 40 個,減少約 80%。
延遲方面,草稿鏈使 GPT-4o 和 Claude 3.5 Sonnet 的平均延遲分別降低 76.2% 和 48.4%。
草稿鏈在保持 100% 準確率的情況下大幅減少了推理 token 和延遲。
論文地址:
https://arxiv.org/abs/2502.18600v2
參考鏈接:
[ 1 ] https://ajithp.com/2025/03/02/chain-of-draft-llm-prompting/