騰訊AngelSlim重磅升級!面向全模態的大模型壓縮算法工具包,推理速度飆升 1.8倍!

近年來,大模型正從能力競賽走向工程落地,推理階段的成本、時延與穩定性逐漸成為制約規模化應用的核心因素。在長上下文、高並發與多模態場景下,解碼過程受限於算力與顯存帶寬,單純依賴模型壓縮或硬件堆疊的優化路徑正逼近邊際收益,促使業界重新審視推理機制本身的優化空間。

在這一背景下,投機採樣(speculative decoding)通過“小模型多步生成 + 大模型並行驗證”,在保證生成質量的前提下減少大模型的有效前向計算。騰訊混元近期升級的 angelslim 圍繞 eagle3 投機採樣訓練範式 構建系統化實現,將投機採樣提升為可訓練、可遷移的加速能力,並擴展至 llm、視覺語言與語音等多模態場景,在實際部署中最高可實現 1.9× 的推理加速,為多模態 ai 的實時化與規模化應用奠定基礎。

一、angelslim +投機採樣

投機採樣是一種通過小模型多步預測 + 大模型一步驗證的推理加速技術,其核心思想是:使用一個輕量級的草稿模型生成多個候選 token,由目標模型對候選結果進行並行驗證是否接受,以此來並行解碼加速,在有效利用大模型解碼階段的算力冗餘,提升推理吞吐並降低單請求延遲。

angelslim是一款集成了包括量化、投機採樣等壓縮算法,面向全模態的大模型壓縮算法工具包。此次對投機採樣訓練進行了重磅升級,支持了大語言、多模態理解、語音等不同模態大模型投機採樣草稿模型訓練能力。

angelslim 以“eagle3訓練即部署”為設計核心,提供從數據處理、模型封裝到投機採樣算法訓練的完整鏈路,幫助開發在不侵入現有模型結構的前提下,顯著降低推理時延與計算成本,各模態、各類大模型加速可達1.4-1.9倍

騰訊AngelSlim重磅升級!面向全模態的大模型壓縮算法工具包,推理速度飆升 1.8倍! -

github開源地址:https://github.com/tencent/angelslim

二、核心亮點

1.覆蓋從文生文、多模態理解到語音的全模態投機採樣訓練

angelslim是一個從設計之初就支持全模態的投機採樣訓練框架,通過統一的訓練接口,不同模態之間共享核心算法與工程能力,避免

重複造輪子。

2.面向部署

angelslim 並不止步於“能訓”,而是強調訓出來就能用。angelslim訓練產出的模型可以無縫用於vllm/sglang等框架進行部署。

三、核心訓練組件解析

騰訊AngelSlim重磅升級!面向全模態的大模型壓縮算法工具包,推理速度飆升 1.8倍! -

1.數據處理模塊

騰訊AngelSlim重磅升級!面向全模態的大模型壓縮算法工具包,推理速度飆升 1.8倍! -

數據處理模塊為投機採樣訓練多個模態提供穩定、可復用的數據基礎,主要包括:

a. 數據重採樣:針對分布外數據集重新採樣,生成分布內數據集用以訓練。

b. 數據預處理:

    i.  統一不同模態的數據格式,將文本、圖像、音頻等輸入標準化處理成token ids和loss mask。

    ii. 草稿模型裁剪詞表的映射。

c. 隱藏特徵提取:根據處理好的token ids獲取對應的隱藏特徵。

騰訊AngelSlim重磅升級!面向全模態的大模型壓縮算法工具包,推理速度飆升 1.8倍! -

2.模型模塊

模型模塊是 angelslim 實現高度擴展性的關鍵。

a.統一的 targetmodel 接口

    i. angelslim提供統一的targetmodel接口,包括模型加載與權重管理、前向計算、中間層 / 隱狀態特徵提取等抽象方法;

b. 低成本擴展新的模型後端

    ii. 對於新的模型架構或後端,用戶只需實現 targetmodel 中定義的抽象方法即可完成模型註冊並接入訓練流程,無需修改訓練器或核心算法代碼。這一設計極大降低了對新模型、新模態的適配成本。

騰訊AngelSlim重磅升級!面向全模態的大模型壓縮算法工具包,推理速度飆升 1.8倍! -

3.訓練器模塊

a.訓練器針對eagle3算法特點設計了兩種訓練模式:在線訓練和離線訓練。在線與離線訓練的區別在於是否預先生成並存好全量數據的hidden states。在線訓練適合小尺寸模型或顯存足夠的場景,離線訓練適合大尺寸模型、低顯存高磁盤空間機器。

b.訓練器實現封裝了eagle3等投機採樣算法訓練的關鍵邏輯:

    i. 訓練時測試(training-time-test):訓練時模擬eagle3模型多步生成過程,讓eagle3模型看到並學習使用自己的預測。

c.訓練器原生支持斷點續訓能力,完整保存並恢復:

    i.草稿模型參數

    ii.optimizer / lr scheduler 狀態以及訓練進度

四、實踐與部署

1.快速開始

當安裝好angelslim後,進入angelslim根目錄按照如下命令可以快速開始eagle3的訓練:

# 啟動vllm服務bash scripts/speculative/run_vllm_server.sh# 生成訓練數據bash scripts/speculative/generate_data_for_target_model.sh# 開始在線訓練bash scripts/speculative/train_eagle3_online.sh

其中前兩條命令是準備數據,對訓練數據進行重採樣,生成目標模型分布內的數據。這一步是可選項,如果訓練數據已經是來自目標模型的sft數據或自身生成的數據,這一步可跳過。對eagle3模型進行訓練直接執行最後一條命令即可。並且我們提供了全面的多模態模型 eagle3 訓練與部署指南,支持llm / vlm / audio (asr & tts) ,詳見:llm | vlm | audio(asr) | audio(tts)。

2.angelslim訓練模型的加速表現

我們使用vllm在代碼、數學、指令跟隨、文本生成、多模態理解等任務上評測了angelslim所訓練的eagle3模型,設置num_speculative_tokens=2 or 4下我們所訓的模型接收長度可達1.8-3.5,最高加速可達1.4-1.9倍。

騰訊AngelSlim重磅升級!面向全模態的大模型壓縮算法工具包,推理速度飆升 1.8倍! -

3.代碼和模型鏈接

a. angelslim代碼github開源倉庫:

https://github.com/tencent/angelslim

b. hugging-face eagle3模型與權重:

https://huggingface.co/collections/angelslim/eagle3

五、未來計劃

在未來規劃中,工具化方面,我們計劃支持基於 vllm 的離線 hidden states 生成,以進一步降低數據構建與訓練成本,並通過系統性的訓練加速優化提升整體訓練效率;算法創新方面,將探索多模態理解與語音輸入信息在eagle3 模型中的深度融合,統一建模文本、視覺與語音特徵,拓展投機採樣在全模態場景下的適用性與加速潛力。

分享你的喜愛