近年來,大模型正從能力競賽走向工程落地,推理階段的成本、時延與穩定性逐漸成為制約規模化應用的核心因素。在長上下文、高並發與多模態場景下,解碼過程受限於算力與顯存帶寬,單純依賴模型壓縮或硬件堆疊的優化路徑正逼近邊際收益,促使業界重新審視推理機制本身的優化空間。
在這一背景下,投機採樣(speculative decoding)通過“小模型多步生成 + 大模型並行驗證”,在保證生成質量的前提下減少大模型的有效前向計算。騰訊混元近期升級的 angelslim 圍繞 eagle3 投機採樣訓練範式 構建系統化實現,將投機採樣提升為可訓練、可遷移的加速能力,並擴展至 llm、視覺語言與語音等多模態場景,在實際部署中最高可實現 1.9× 的推理加速,為多模態 ai 的實時化與規模化應用奠定基礎。
一、angelslim +投機採樣
投機採樣是一種通過小模型多步預測 + 大模型一步驗證的推理加速技術,其核心思想是:使用一個輕量級的草稿模型生成多個候選 token,由目標模型對候選結果進行並行驗證是否接受,以此來並行解碼加速,在有效利用大模型解碼階段的算力冗餘,提升推理吞吐並降低單請求延遲。
angelslim是一款集成了包括量化、投機採樣等壓縮算法,面向全模態的大模型壓縮算法工具包。此次對投機採樣訓練進行了重磅升級,支持了大語言、多模態理解、語音等不同模態大模型投機採樣草稿模型訓練能力。
angelslim 以“eagle3訓練即部署”為設計核心,提供從數據處理、模型封裝到投機採樣算法訓練的完整鏈路,幫助開發在不侵入現有模型結構的前提下,顯著降低推理時延與計算成本,各模態、各類大模型加速可達1.4-1.9倍。
github開源地址:https://github.com/tencent/angelslim
二、核心亮點
1.覆蓋從文生文、多模態理解到語音的全模態投機採樣訓練
angelslim是一個從設計之初就支持全模態的投機採樣訓練框架,通過統一的訓練接口,不同模態之間共享核心算法與工程能力,避免
2.面向部署
angelslim 並不止步於“能訓”,而是強調訓出來就能用。angelslim訓練產出的模型可以無縫用於vllm/sglang等框架進行部署。
三、核心訓練組件解析
1.數據處理模塊
數據處理模塊為投機採樣訓練多個模態提供穩定、可復用的數據基礎,主要包括:
a. 數據重採樣:針對分布外數據集重新採樣,生成分布內數據集用以訓練。
b. 數據預處理:
i. 統一不同模態的數據格式,將文本、圖像、音頻等輸入標準化處理成token ids和loss mask。
ii. 草稿模型裁剪詞表的映射。
c. 隱藏特徵提取:根據處理好的token ids獲取對應的隱藏特徵。
2.模型模塊
模型模塊是 angelslim 實現高度擴展性的關鍵。
a.統一的 targetmodel 接口
i. angelslim提供統一的targetmodel接口,包括模型加載與權重管理、前向計算、中間層 / 隱狀態特徵提取等抽象方法;
b. 低成本擴展新的模型後端
ii. 對於新的模型架構或後端,用戶只需實現 targetmodel 中定義的抽象方法即可完成模型註冊並接入訓練流程,無需修改訓練器或核心算法代碼。這一設計極大降低了對新模型、新模態的適配成本。
3.訓練器模塊
a.訓練器針對eagle3算法特點設計了兩種訓練模式:在線訓練和離線訓練。在線與離線訓練的區別在於是否預先生成並存好全量數據的hidden states。在線訓練適合小尺寸模型或顯存足夠的場景,離線訓練適合大尺寸模型、低顯存高磁盤空間機器。
b.訓練器實現封裝了eagle3等投機採樣算法訓練的關鍵邏輯:
i. 訓練時測試(training-time-test):訓練時模擬eagle3模型多步生成過程,讓eagle3模型看到並學習使用自己的預測。
c.訓練器原生支持斷點續訓能力,完整保存並恢復:
i.草稿模型參數
ii.optimizer / lr scheduler 狀態以及訓練進度
四、實踐與部署
1.快速開始
當安裝好angelslim後,進入angelslim根目錄按照如下命令可以快速開始eagle3的訓練:
# 啟動vllm服務bash scripts/speculative/run_vllm_server.sh# 生成訓練數據bash scripts/speculative/generate_data_for_target_model.sh# 開始在線訓練bash scripts/speculative/train_eagle3_online.sh
其中前兩條命令是準備數據,對訓練數據進行重採樣,生成目標模型分布內的數據。這一步是可選項,如果訓練數據已經是來自目標模型的sft數據或自身生成的數據,這一步可跳過。對eagle3模型進行訓練直接執行最後一條命令即可。並且我們提供了全面的多模態模型 eagle3 訓練與部署指南,支持llm / vlm / audio (asr & tts) ,詳見文檔:llm | vlm | audio(asr) | audio(tts)。
2.angelslim訓練模型的加速表現
我們使用vllm在代碼、數學、指令跟隨、文本生成、多模態理解等任務上評測了angelslim所訓練的eagle3模型,設置num_speculative_tokens=2 or 4下我們所訓的模型接收長度可達1.8-3.5,最高加速可達1.4-1.9倍。
3.代碼和模型鏈接
a. angelslim代碼github開源倉庫:
https://github.com/tencent/angelslim
b. hugging-face eagle3模型與權重:
https://huggingface.co/collections/angelslim/eagle3
五、未來計劃
在未來規劃中,工具化方面,我們計劃支持基於 vllm 的離線 hidden states 生成,以進一步降低數據構建與訓練成本,並通過系統性的訓練加速優化提升整體訓練效率;算法創新方面,將探索多模態理解與語音輸入信息在eagle3 模型中的深度融合,統一建模文本、視覺與語音特徵,拓展投機採樣在全模態場景下的適用性與加速潛力。