作者:汪誠愚(熊兮)、嚴(yán)俊冰(玖燭)、蔡文睿(清素)、岳元浩(顧城)、黃?。ㄅR在)
前言
隨著大型語言模型(LLM)的復(fù)雜性和規(guī)模不斷增長,對于許多研究人員和企業(yè)而言,如何有效地利用這些龐大的模型變得愈發(fā)重要。然而,巨大的計算需求和訓(xùn)練成本為模型的廣泛應(yīng)用設(shè)置了障礙。知識蒸餾是一種將大模型的知識轉(zhuǎn)移到小模型的方法,其核心思想是在不顯著降低性能的前提下,通過訓(xùn)練將復(fù)雜的模型轉(zhuǎn)化為更小、更高效的版本。通過這種方式,知識蒸餾不僅能夠有效降低計算成本,還能夠提高模型在資源受限環(huán)境中的適應(yīng)性,從而為大規(guī)模應(yīng)用提供可能。在此背景下,阿里云星空人工智能平臺(PAI)推出了一款新的開源工具包——EasyDistill(https://github.com/modelscope/easydistill),旨在簡化大型語言模型的知識蒸餾過程,助力參數(shù)量更小但性能卓越的大模型的實際應(yīng)用。除了EasyDistill本身,這一框架還包括了蒸餾大模型DistilQwen系列以及相應(yīng)的開源數(shù)據(jù)集,供用戶使用,其中包括一百萬條通用指令遵循數(shù)據(jù)和兩百萬條思維鏈推理數(shù)據(jù)。尤其是,DistilQwen系列最新的變長思維鏈推理蒸餾模型DistilQwen-ThoughtX能夠根據(jù)任務(wù)難度輸出變長思維鏈,其32B版本推理能力超越了DeepSeek官方蒸餾模型。
在下文中,我們詳細(xì)描述EasyDistill的框架功能,包括對應(yīng)的DistilQwen模型以及其對應(yīng)開源數(shù)據(jù)集。
EasyDistill框架功能
在本節(jié)中,我們將深入討論EasyDistill的功能模塊及其在知識蒸餾中的各類應(yīng)用細(xì)節(jié)。
基本架構(gòu)和功能簡介
EasyDistill的基礎(chǔ)架構(gòu)如下圖所示:

數(shù)據(jù)合成
在訓(xùn)練大語言模型過程中,合成數(shù)據(jù)起著至關(guān)重要的作用。尤其在知識蒸餾階段,種子數(shù)據(jù)集的規(guī)模通常有限,使合成數(shù)據(jù)的使用顯得尤為必要。我們在EasyDistill框架中集成了多種數(shù)據(jù)合成和增強操作,這些操作利用了專有和開源的教師模型,使訓(xùn)練集不僅在數(shù)量上增加,還在任務(wù)、主題或領(lǐng)域的多樣性方面得到了提升。
EasyDistill支持的第一組操作專注于合成各種NLP任務(wù)的指令數(shù)據(jù)。框架引入了多項功能,包括指令擴展、指令優(yōu)化,以及從原始文本中自動生成指令-響應(yīng)對等。具體而言,指令擴展通過增加指令數(shù)據(jù)集的數(shù)量,使模型能夠獲取更加豐富的上下文信息,從而提升訓(xùn)練集的知識覆蓋率;指令優(yōu)化則涉及去除冗余信息并提高指令的明確性,確保模型回復(fù)質(zhì)量更高;自動生成指令-響應(yīng)對的功能使得模型能夠從非結(jié)構(gòu)化文本中提取知識,為訓(xùn)練數(shù)據(jù)集注入更多的多樣性。
EasyDistill框架的第二組操作專注于思維鏈,這是蒸餾大規(guī)模推理模型的重要組成部分。除生成思維鏈的算子外,我們進(jìn)一步整合了用于簡化和擴展思維鏈的算子。思維鏈簡化算子通過減少模型推理的復(fù)雜性,使思維鏈更加清晰和連貫,提升模型在推理過程中的效率。思維鏈擴展算子則能夠在復(fù)雜問題上提供更多詳細(xì)步驟和邏輯鏈,從而增強模型解決復(fù)雜問題的能力。
基礎(chǔ)蒸餾訓(xùn)練
在基礎(chǔ)蒸餾訓(xùn)練模塊中,EasyDistill提供了黑盒化和白盒化的模型蒸餾訓(xùn)練功能。對于專有的閉源大語言模型,由于只能訪問模型的輸出,其黑盒化知識蒸餾主要依賴于監(jiān)督微調(diào)(SFT),將這些輸出視為學(xué)生模型的真實值進(jìn)行訓(xùn)練。這種方法操作簡單,但在數(shù)據(jù)有限的情況下,其效果可能受到限制。值得注意的是,EasyDistill框架支持所有符合OpenAI格式的閉源模型API,例如OpenAI、DashScope、PAI-EAS等。
針對開源的教師語言模型,EasyDistill訓(xùn)練層提供了一種更為精細(xì)的白盒化訓(xùn)練策略。除了進(jìn)行SFT之外,我們還利用教師模型的隱藏知識進(jìn)行指導(dǎo)。這種方式能夠顯著提升效果。具體而言,我們從教師模型獲取token級別的logits,通過最小化教師模型與學(xué)生模型logits分布之間的差異來優(yōu)化訓(xùn)練表現(xiàn)。為此,EasyDistill框架采用了包括Kullback–Leibler散度(KLD)和反向KLD在內(nèi)的多種損失函數(shù)。根據(jù)我們的研究,模型的前10個概率最大的token的概率之和幾乎為1。因此,EasyDistill允許用戶選擇僅使用教師模型中前top-k的token logits,并與學(xué)生模型的對應(yīng)logits進(jìn)行匹配。隨后,在計算損失函數(shù)時,我們僅考慮這k個選定的logits進(jìn)行近似計算。這種策略不僅降低了計算時間,而且加快了logits的存儲和讀取速度。
進(jìn)階蒸餾訓(xùn)練
上述黑盒化和白盒化模型蒸餾訓(xùn)練的核心原則在于讓學(xué)生模型模仿教師模型的行為。然而,這種方法可能導(dǎo)致學(xué)生模型"過擬合"教師模型的輸出,從而限制其泛化能力的提升。為解決這一問題,EasyDistill框架在訓(xùn)練層引入了基于強化學(xué)習(xí)(RL)和偏好優(yōu)化的方法,通過教師模型的反饋來訓(xùn)練學(xué)生模型。
在強化學(xué)習(xí)中,決定模型優(yōu)化上限的一個核心因素是高質(zhì)量的獎勵模型(Reward Model)。EasyDistill支持的首項功能是利用教師模型的反饋來訓(xùn)練獎勵模型,這類似于從AI反饋中進(jìn)行強化學(xué)習(xí)(RLAIF)框架。具體而言,我們使用教師模型生成的選擇和拒絕回復(fù)作為偏好數(shù)據(jù),并利用這些數(shù)據(jù)訓(xùn)練獎勵模型。一旦獎勵模型建立,便可通過各種強化學(xué)習(xí)算法優(yōu)化學(xué)生模型。為此,EasyDistill集成了多種流行算法用于訓(xùn)練學(xué)生模型,特別是對通用大語言模型的近端策略優(yōu)化(Proximal Policy Optimization,PPO)和用于優(yōu)化推理模型的群體相對策略優(yōu)化(Group Relative Policy Optimization,GRPO)。
然而,RL算法的一個潛在缺點是訓(xùn)練過程中的不穩(wěn)定性。為此,EasyDistill還引入了偏好優(yōu)化的方法,將偏好直接融入大模型中以實現(xiàn)更穩(wěn)定的訓(xùn)練過程。在這一框架下,我們集成了直接偏好優(yōu)化(Direct Preference Optimization,DPO)算法,直接利用選擇和拒絕的回復(fù)作為偏好數(shù)據(jù)來優(yōu)化學(xué)生模型。對于推理模型,蒸餾后的小模型一般具有與大模型不同的認(rèn)知能力。為此,EasyDistill引入了我們提出的認(rèn)知偏好優(yōu)化(CogPO)算法,通過與模型的認(rèn)知能力對齊,進(jìn)一步增強小模型的推理能力。
初步體驗EasyDistill
為了適應(yīng)不同的使用需求,EasyDistill采用了模塊化設(shè)計。用戶可以依據(jù)具體的任務(wù)場景選擇適合的模塊進(jìn)行組合和應(yīng)用。我們也提供了簡潔的命令行接口使得用戶能夠方便地運行各種知識蒸餾算法。以下是使用EasyDistill的一些基本步驟。
克隆代碼庫:
git clone https://github.com/modelscope/easydistillcd EasyDistill
安裝必要的依賴:
python setup.py install
通過命令行界面探索EasyDistill的使用:
easydistill --config
配置文件可為不同的知識蒸餾任務(wù)設(shè)定具體的參數(shù)和路徑,如下提供了一個黑盒化蒸餾訓(xùn)練的配置示例:
{ "job_type": "kd_black_box_local", "dataset": { "instruction_path": "train.json", "labeled_path": "train_labeled.json", "template" : "chat_template/chat_template_kd.jinja", "seed": 42 }, "inference":{ "enable_chunked_prefill": true, "seed": 777, "gpu_memory_utilization": 0.9, "temperature": 0.8, "trust_remote_code": true, "enforce_eager": false, "max_model_len": 4096, "max_new_tokens": 512 }, "models": { "teacher": "teacher/Qwen/Qwen2.5-7B-Instruct/", "student": "student/Qwen/Qwen2.5-0.5B-Instruct/" }, "training": { "output_dir": "./result/", "num_train_epochs": 3, "per_device_train_batch_size": 1, "gradient_accumulation_steps": 8, "max_length":512, "save_steps": 1000, "logging_steps": 1, "learning_rate": 2e-5, "weight_decay": 0.05, "warmup_ratio": 0.1, "lr_scheduler_type": "cosine" }}
教師模型也可以使用閉源的API進(jìn)行配置,示例如下:
{ "job_type": "kd_black_box_api", "dataset": { "instruction_path": "train.json", "labeled_path": "train_labeled.json", "template" : "./chat_template/chat_template_kd.jinja", "seed": 42 }, "inference":{ "base_url": "ENDPOINT", "api_key": "TOKEN", "stream": true, "system_prompt" : "You are a helpful assistant.", "max_new_tokens": 512 }, "models": { "student": "student/Qwen/Qwen2.5-0.5B-Instruct/" }, "training": { "output_dir": "./result/", "num_train_epochs": 3, "per_device_train_batch_size": 1, "gradient_accumulation_steps": 8, "max_length":512, "save_steps": 1000, "logging_steps": 1, "learning_rate": 2e-5, "weight_decay": 0.05, "warmup_ratio": 0.1, "lr_scheduler_type": "cosine" }}
用戶只需要指定大模型對應(yīng)的base_url和api_key即可,無需配置其他教師大模型的信息。
DistilQwen:基于EasyDistill的蒸餾開源模型家族
在EasyDistill的支持下,我們開發(fā)了一系列基于通義千問開源框架的蒸餾語言模型,稱為DistilQwen。這些模型充分利用知識蒸餾的方法,能夠在減少模型參數(shù)量的同時保持高性能表現(xiàn)。這些蒸餾模型特別適用于資源受限的環(huán)境。同時,我們在EasyDistill框架的Recipes模塊中提供了這些蒸餾算法的使用指引。
DistilQwen之System 1模型
在大語言模型框架中,System 1模型使用直覺型的任務(wù)解決機制來回答用戶的指令。由于這些模型的輸出token量較少,其推理速度更快。在DistilQwen系列中,我們開源了DistilQwen2和DistilQwen2.5兩個模型系列。其中,DistilQwen2是Qwen2模型的增強版本,具備改進(jìn)的指令跟隨能力,以適應(yīng)各種自然語言處理任務(wù)。我們使用GPT-4和Qwen-max作為教師模型來生成高質(zhì)量的回復(fù),同時平衡輸入指令的任務(wù)分布。在蒸餾訓(xùn)練過程中,我們首先采用SFT訓(xùn)練,之后通過DPO算法進(jìn)行偏好優(yōu)化,以增強學(xué)生模型與教師模型之間的對齊。
DistilQwen2.5系列模型是DistilQwen2的升級版本,以Qwen2.5模型作為底座,使用黑盒和白盒知識蒸餾算法的結(jié)合進(jìn)行訓(xùn)練。我們首先使用與DistilQwen2相同的指令數(shù)據(jù)處理和黑盒SFT訓(xùn)練過程。隨后,我們進(jìn)一步采用白盒化的logitis優(yōu)化對齊訓(xùn)練,以完善學(xué)生對教師模型中復(fù)雜知識的獲取。這里,我們使用Qwen2.5-72B-Instruct作為開源教師模型。下表展示了DistilQwen2和DistilQwen2.5與原始模型性能表現(xiàn)的對比。
|
Model |
AlpacaEval 2.0 (length control) |
MT-Bench |
MT-Bench (single) |
IFEval (instruct-loose) |
IFEval (strict-prompt) |
|
0.5B量級 |
|||||
|
Qwen2.5-0.5B-Instruct |
2.46 |
5.49 |
6.26 |
42.81 |
30.31 |
|
DistilQwen2.5-0.5B-Instruct |
4.89 |
5.78 |
6.83 |
52.61 |
37.82 |
|
1.5B量級 |
|||||
|
Qwen2-1.5B-Instruct |
5.22 |
5.85 |
6.45 |
41.37 |
28.10 |
|
DistilQwen2-1.5B-Instruct |
8.28 |
6.42 |
7.12 |
49.76 |
36.04 |
|
Qwen2.5-1.5B-Instruct |
6.69 |
7.09 |
7.66 |
55.40 |
40.11 |
|
DistilQwen2.5-1.5B-Instruct |
13.69 |
7.35 |
7.99 |
61.10 |
74.49 |
|
3B量級 |
|||||
|
Qwen2.5-3B-Instruct |
17.98 |
7.92 |
8.40 |
61.18 |
74.58 |
|
DistilQwen2.5-3B-Instruct |
20.91 |
8.37 |
8.97 |
67.03 |
77.36 |
|
7B量級 |
|||||
|
Qwen2-7B-Instruct |
24.33 |
8.27 |
8.68 |
66.67 |
52.31 |
|
DistilQwen2-7B-Instruct |
25.35 |
8.40 |
9.03 |
71.46 |
60.26 |
|
Qwen2.5-7B-Instruct |
31.43 |
8.52 |
8.83 |
81.53 |
72.10 |
|
DistilQwen2.5-7B-Instruct |
34.86 |
8.76 |
9.22 |
83.48 |
73.27 |
DistilQwen之System 2模型
與System 1模型不同,System 2模型使用慢思考模式,對復(fù)雜問題的解決首先輸出思維鏈,其次給出問題的解答,從而顯著提升了模型的深度推理能力,在DistilQwen系列中,我們首先推出DistilQwen2.5-R1系列模型,使用DeepSeek-R1作為教師模型。為了使更小的蒸餾模型在推理能力上與其內(nèi)在的認(rèn)知能力相匹配,我們進(jìn)一步使用提出的CogPO算法對思維鏈進(jìn)行精細(xì)化處理。
此外,我們將DeepSeek-V3-0324的快思維推理能力轉(zhuǎn)移到DistilQwen2.5-DS3-0324模型中。為了縮短推理過程,我們使用CoT簡化算子來減少DistilQwen2.5-R1訓(xùn)練數(shù)據(jù)中的token。結(jié)合重寫的CoT數(shù)據(jù)集,以及DeepSeek-V3-0324的CoT蒸餾數(shù)據(jù),我們訓(xùn)練了DistilQwen2.5-DS3-0324系列模型。下圖展示了DistilQwen2.5-R1和DistilQwen2.5-DS3-0324的性能表現(xiàn)。
|
Model |
AIME2024 |
MATH-500 |
GPQA Diamond |
LiveCodeBench V2 |
|
3B量級 |
||||
|
Qwen2.5-3B-Instruct |
6.67 |
62.6 |
32.83 |
11.35 |
|
DistilQwen2.5-DS3-0324-3B |
16.67 |
70.0 |
34.34 |
18.00 |
|
7B量級 |
||||
|
Qwen2.5-7B-Instruct |
10.0 |
73.6 |
33.30 |
30.72 |
|
DistilQwen2.5-7B-R1 |
23.33 |
77.8 |
37.88 |
36.40 |
|
DistilQwen2.5-DS3-0324-7B |
43.33 |
88.4 |
42.93 |
46.38 |
|
14B量級 |
||||
|
Qwen2.5-14B-Instruct |
16.7 |
78.2 |
43.43 |
37.38 |
|
DistilQwen2.5-14B-R1 |
26.67 |
82.6 |
45.45 |
41.49 |
|
DistilQwen2.5-DS3-0324-14B |
46.67 |
90.8 |
51.52 |
54.40 |
|
32B量級 |
||||
|
Qwen2.5-32B-Instruct |
16.67 |
81.4 |
45.50 |
47.36 |
|
DistilQwen2.5-32B-R1 |
46.67 |
87.0 |
48.99 |
55.97 |
|
DistilQwen2.5-DS3-0324-32B |
70.00 |
93.8 |
62.12 |
65.95 |
DistilQwen最新發(fā)布:變長思維鏈推理模型DistilQwen-ThoughtX
深度推理模型的一個問題是,他們對于各種輸入問題都輸出較長的思維鏈進(jìn)行推理;然而,不適合的思維鏈可能反而使得模型推理能力下降。因此,提升模型推理能力的關(guān)鍵是模型根據(jù)問題難度和自身能力,實現(xiàn)自適應(yīng)的變長思維鏈推理。最新的DistilQwen系列是DistilQwen-ThoughtX,與之前的DistilQwen模型以及其他開源蒸餾模型相比,它具有更強的推理能力,并可以生成了長度更為優(yōu)化的推理鏈。這一模型系列的訓(xùn)練集為我們推出的具有兩百萬條思維鏈的OmniThought開源數(shù)據(jù)集,我們對于每條思維鏈數(shù)據(jù)都進(jìn)行推理冗余度(Reasoning Verbosity,RV)和認(rèn)知難度(Cognitive Difficulty,CD)評分,確保模型獲得高質(zhì)量的思維鏈訓(xùn)練數(shù)據(jù)。DistilQwen-ThoughtX在開源社區(qū)中表現(xiàn)甚至優(yōu)于DeepSeek官方采用閉源數(shù)據(jù)集蒸餾的模型。下表展示了DistilQwen-ThoughtX的性能表現(xiàn):
|
Model |
AIME2024 |
MATH500 |
GPQA Diamond |
LiveCodeBench V2 |
Avg. |
|
7B量級 |
|||||
|
OpenThinker-7B |
31.3 |
83.0 |
42.4 |
39.9 |
49.1 |
|
DeepSeek-R1-Distill-Qwen-7B |
57.3 |
89.6 |
47.3 |
48.4 |
60.6 |
|
OpenThinker2-7B |
50.0 |
88.4 |
49.3 |
55.6 |
60.8 |
|
DistilQwen-ThoughtX-7B |
56.7 |
90.2 |
50.0 |
56.8 |
63.4 |
|
32B量級 |
|||||
|
LIMO-32B |
56.7 |
86.6 |
58.1 |
60.0 |
65.3 |
|
OpenThinker-32B |
66.0 |
90.6 |
61.6 |
68.9 |
71.7 |
|
DeepSeek-R1-Distill-Qwen-32B |
74.7 |
90.0 |
62.4 |
72.3 |
74.8 |
|
OpenThinker2-32B |
76.7 |
90.8 |
64.1 |
72.5 |
76.0 |
|
Light-R1-32B |
74.7 |
90.4 |
62.0 |
56.0 |
70.7 |
|
s1.1-32B |
59.3 |
87.4 |
62.0 |
58.7 |
66.8 |
|
DistilQwen-ThoughtX-32B |
80.0 |
92.6 |
64.0 |
73.4 |
77.5 |
DistilQwen所有模型均可以HuggingFace和ModelScope開源社區(qū)中進(jìn)行下載。
開源數(shù)據(jù)集
本章介紹基于EasyDistill框架的開源數(shù)據(jù)集,這些數(shù)據(jù)集集用于訓(xùn)練DistilQwen系列模型,分為兩個系列:指令遵循系列和思維鏈推理系列。
指令遵循數(shù)據(jù)集
社區(qū)開發(fā)者在微調(diào)DistilQwen模型時,容易發(fā)生災(zāi)難性遺忘的現(xiàn)象。為了緩解這一問題,我們開源了用于訓(xùn)練DistilQwen2和DistilQwen2.5系列模型的兩個子集:DistilQwen_100K和DistilQwen_1M。這些數(shù)據(jù)集也可以用于提升其他類似大型語言模型在指令遵循方面的能力。這些數(shù)據(jù)集涵蓋了數(shù)學(xué)、代碼、基于知識的問答以及創(chuàng)造性生成等內(nèi)容,總數(shù)據(jù)集規(guī)模分別為10萬和100萬。用戶可以在模型微調(diào)過程中將DistilQwen_100K和DistilQwen_1M或其子集與自己的數(shù)據(jù)結(jié)合使用,以提升模型在下游任務(wù)的效果。
思維鏈推理數(shù)據(jù)集
OmniThought是用于訓(xùn)練DistilQwen-ThoughtX的大規(guī)模思維鏈推理數(shù)據(jù)集。我們從開源社區(qū)搜集大量推理問題以及對應(yīng)的思維鏈,并且使用DeepSeek-R1和QwQ-32B生成更多的思維鏈,對于每條思維鏈,我們也使用上述模型驗證其正確性,總共獲得了200萬條思維鏈。對于OmniThought的每一個思維鏈,我們都給出提出的推理冗余度(RV)和認(rèn)知難度(CD)評分,這些評分描述了CoT冗長程度和模型對于上述思維鏈的認(rèn)知難度等級。因此,在蒸餾推理小模型時,可以根據(jù)上述評分篩選出更優(yōu)的思維鏈子集進(jìn)行訓(xùn)練。在前文中,我們也展示了,訓(xùn)練出的DistilQwen-ThoughtX的表現(xiàn)甚至優(yōu)于DeepSeek官方采用閉源數(shù)據(jù)集蒸餾的模型。
所有這些數(shù)據(jù)集都可以在HuggingFace和ModelScope上公開下載,匯總?cè)缦卤怼?/span>
|
數(shù)據(jù)集 |
類別 |
數(shù)據(jù)量 |
下載鏈接 |
|
DistilQwen_100K |
指令遵循 |
10萬 |
下載鏈接 |
|
DistilQwen_1M |
指令遵循 |
100萬 |
下載鏈接 |
|
OmniThought |
思維鏈推理 |
200萬 |
下載鏈接 |
本文小結(jié)
本文介紹了阿里云星空人工智能平臺PAI推出的開源工具包EasyDistill。隨著大語言模型的復(fù)雜性和規(guī)模增長,它們面臨計算需求和訓(xùn)練成本的障礙。知識蒸餾旨在不顯著降低性能的前提下,將大模型轉(zhuǎn)化為更小、更高效的版本以降低訓(xùn)練和推理成本。EasyDistill框架簡化了知識蒸餾過程,其具備多種功能模塊,包括數(shù)據(jù)合成、基礎(chǔ)和進(jìn)階蒸餾訓(xùn)練。通過數(shù)據(jù)合成,豐富訓(xùn)練集的多樣性;基礎(chǔ)和進(jìn)階蒸餾訓(xùn)練則涵蓋黑盒和白盒知識轉(zhuǎn)移策略、強化學(xué)習(xí)及偏好優(yōu)化,從而提升小模型的性能。
基于EasyDistill框架,我們進(jìn)一步開源了DistilQwen模型系列,并且提供了蒸餾技術(shù)的實際應(yīng)用案例EasyDistill-Recipes。特別地,DistilQwen模型系列的最新版本額DistilQwen-ThoughtX實現(xiàn)了變長思維鏈輸出,其推理能力超越了其他開源蒸餾模型。此外,本文還介紹了EasyDistill框架的開源數(shù)據(jù)集,包括100萬條指令遵循和200萬條思維鏈推理數(shù)據(jù)集,以支持社區(qū)開發(fā)者的使用和進(jìn)一步提升模型性能。所有數(shù)據(jù)集均可在HuggingFace和ModelScope平臺獲取。
在未來,我們將進(jìn)一步擴展EasyDistill框架的功能,開源更多DistilQwen模型系列和相應(yīng)資源。歡迎大家加入我們,一起交流大模型蒸餾技術(shù)!
參考工作
相關(guān)論文
Chengyu Wang, Junbing Yan, Wenrui Cai, Yuanhao Yue, Jun Huang. EasyDistill: A Comprehensive Toolkit for Effective Knowledge Distillation of Large Language Models. arXiv preprint
Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang. Reasoning with OmniThought: A Large CoT Dataset with Verbosity and Cognitive Difficulty Annotations. arXiv preprint
Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang. Training Small Reasoning LLMs with Cognitive Preference Alignment. arXiv preprint
Chengyu Wang, Junbing Yan, Yuanhao Yue, Jun Huang. DistilQwen2.5: Industrial Practices of Training Distilled Open Lightweight Language Models. ACL 2025
Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang. Building a Family of Data Augmentation Models for Low-cost LLM Fine-tuning on the Cloud. COLING 2025
Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang. Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning. EMNLP 2024
技術(shù)介紹
DistilQwen2:通義千問大模型的知識蒸餾實踐
DistilQwen2.5發(fā)布:通義千問蒸餾小模型再升級
DistilQwen2.5-R1發(fā)布:知識蒸餾助推小模型深度思考
星空人工智能平臺 PAI DistilQwen2.5-DS3-0324發(fā)布:知識蒸餾+快思考=更高效解決推理難題
基于多輪課程學(xué)習(xí)的大語言模型蒸餾算法TAPIR
星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問題,煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時溝通與處理。?。?a href="/">首頁 > 大數(shù)據(jù) » 阿里云星空人工智能平臺PAI開源EasyDistill框架助力大語言模型輕松瘦身