99热综合福利导航,久久66日韩,91一二区少妇,久久产国视频,日韩久久久五月精品八区,丰满狐狸精在线电影,一区婷婷久久,日韩欧美另类在线,欧美中文字幕区

星空人工智能技術(shù)網(wǎng)

DistilQwen-ThoughtX:變長思維鏈推理模型,超越DeepSeek蒸餾模型

 ?作者:蔡文睿(清素)、汪誠愚(熊兮)、嚴(yán)俊冰(玖燭)、黃?。ㄅR在)

前言

近年來,自然語言處理(NLP)領(lǐng)域以大語言模型(LLM)的出現(xiàn)為標(biāo)志,發(fā)生了深刻變革,引領(lǐng)了語言理解、生成和推理任務(wù)的進(jìn)步。其中,進(jìn)步尤其顯著的是深度推理模型的發(fā)展,如OpenAI的o1、DeepSeek-R1和QwQ-32B等,它們在數(shù)學(xué)問題、代碼生成等復(fù)雜推理任務(wù)中表現(xiàn)突出。這些模型的成功很大程度上得益于使用思維鏈(Chain-of-Thought, CoT)的推理方式,能夠模擬人類的漸進(jìn)思考過程,將復(fù)雜問題化繁為簡。然而,對于不同的推理任務(wù),使用長思考的推理模式并不能提升模型在所有推理任務(wù)上的精度,反而容易引發(fā)“過度思考”的問題,既降低了模型響應(yīng)速度,又導(dǎo)致推理過程中頻繁出錯(cuò)。

為了解決這一問題,阿里云星空人工智能平臺(tái)PAI團(tuán)隊(duì)對于思維鏈的特性,提出了推理冗余度(Reasoning Verbosity, RV)和認(rèn)知難度(Cognitive Difficulty, CD)分?jǐn)?shù)兩種度量方式,并且構(gòu)建了包括200萬思維鏈的數(shù)據(jù)集OmniThought,對于OmniThought的每個(gè)思維鏈都進(jìn)行了標(biāo)注?;赗V和CD分?jǐn)?shù),我們可以根據(jù)不同的任務(wù)和模型底座要求,訓(xùn)練根據(jù)任務(wù)進(jìn)行自適應(yīng)的變長思維鏈推理模型。因此,基于這一新提出的OmniThought數(shù)據(jù)集,我們訓(xùn)練并發(fā)布了一系列具有更強(qiáng)推理能力、具備最佳思維鏈長度和難度水平的模型(DistilQwen-ThoughtX系列),這些模型的性能甚至超越借助專有數(shù)據(jù)集訓(xùn)練的DeepSeek-R1-Distill系列。具體效果的比較見下圖。

為了便于社區(qū)用戶使用DistilQwen-ThoughtX系列模型,以及蒸餾適合自身場景的推理模型,我們在EasyDistill(https://github.com/modelscope/easydistill)的框架中開源了OmniThought的全部數(shù)據(jù),以及所有DistilQwen-ThoughtX系列模型的權(quán)重。在下文中,我們將介紹OmniThought數(shù)據(jù)集的構(gòu)建流程和DistilQwen-ThoughtX系列模型的效果。

OmniThought數(shù)據(jù)集構(gòu)建

OmniThought數(shù)據(jù)集的構(gòu)建框架如下所示:

基礎(chǔ)數(shù)據(jù)搜集和正確性驗(yàn)證

首先,由于開源社區(qū)中存在許多高質(zhì)量的推理問題集,OmniThought采用了OpenThoughts2-1M和DeepMath-103K兩個(gè)數(shù)據(jù)集作為數(shù)據(jù)源。其中,OpenThoughts2-1M包含約64萬個(gè)跨數(shù)學(xué)、編碼、科學(xué)及謎題等多個(gè)領(lǐng)域的推理問題,而DeepMath-103K則包括10.3萬道難度不一的數(shù)學(xué)問題。

接下來,我們使用DeepSeek-R1和 QwQ-32B作為教師模型,為問題集合生成多個(gè)思維鏈推理過程。為了確保生成的思維鏈過程的高質(zhì)量,我們進(jìn)一步采用“LLM-as-a-judge”方法,對生成的思維鏈進(jìn)行多個(gè)方面的驗(yàn)證,其中包括邏輯正確性及推導(dǎo)出正確答案的能力,模版如下所示:

You are a rigorous logical validator analyzing problem-solving components. Your task is to separately assess the validity of the reasoning process and final solution. Given a problem, the correct answer, a candidate reasoning process, and a candidate solution, you will:For SOLUTION VALIDITY: Directly comparing it to the correct answer.For REASONING PROCESS VALIDATION:     a. Verify stepwise logical coherence and soundness    b. Confirm all critical problem constraints are properly addressed    c. Check for self-contradictions or unsupported leaps in logic    d. Verify the process can actually derive the proposed solutionEvaluation Protocol:- Solution validity MUST be FALSE for any numerical mismatch or missing units- Reasoning process validity requires ALL validation criteria (a-d) satisfied- Both assessments must be independent: correct answer with flawed reasoning gets (False, True)- Return STRICT BOOLEAN assessments for both componentsProblem: {problem}Correct Answer: {answer}Candidate Reasoning Process: {reasoning process} Proposed Solution: {solution}Output Format: reasoning_valid: bool, solution_valid: bool

由于OpenThoughts2-1M和DeepMath-103K數(shù)據(jù)集已包含部分來自DeepSeek-R1的思維鏈,我們同樣驗(yàn)證了這些思維鏈的正確性,并將驗(yàn)證結(jié)果作為元數(shù)據(jù)添加。最終,OmniThought數(shù)據(jù)集包含超過200萬思維鏈,對應(yīng)于70.8萬道推理問題。我們確保數(shù)據(jù)集中的每個(gè)問題至少擁有兩個(gè)經(jīng)過驗(yàn)證的正確思維鏈。

推理冗余度(Reasoning Verbosity)

思維鏈本質(zhì)上涉及自我反思,促使模型在推理過程中進(jìn)行多輪反思和修正。這種機(jī)制在模型處理復(fù)雜問題時(shí)有助于降低錯(cuò)誤率,卻可能導(dǎo)致在簡單問題上陷入“過度思考”的情況,例如對“1 + 1 = ?”問題回答進(jìn)行過度檢查。這樣的過度思考不僅浪費(fèi)計(jì)算資源,還可能降低推理準(zhǔn)確度。因此,對于特定問題,其思維鏈的長度應(yīng)與問題的難度相匹配,這反映了思維鏈的“推理冗余度(Reasoning Verbosity,RV)”,我們對RV分級標(biāo)準(zhǔn)進(jìn)行了正式定義,采用0到9的評分,具體用于評估RV的模版詳見相關(guān)論文。

0-1: 最低冗余度,直接輸出結(jié)果,幾乎沒有詳細(xì)說明。2-3: 較低冗余度,有清晰簡潔的推理過程,包含必要的解釋。4-5: 中等冗余度,提供詳細(xì)解釋并進(jìn)行充分推理。6-7: 較高冗余度,全面的論證,進(jìn)行復(fù)雜的探索。8-9: 高冗余度,深入、詳盡的推理;涉及詳細(xì)論述、嵌套論證及考慮反對論點(diǎn)的討論。

為進(jìn)一步驗(yàn)證RV在推理模型訓(xùn)練中的有效性,我們在OmniThought隨機(jī)抽取包含1萬個(gè)問題的子集,每個(gè)問題的三個(gè)思維鏈屬于三個(gè)不同RV級別。在這個(gè)子集內(nèi),相鄰級別之間的RV差異超過3。因此,我們獲得了三個(gè)訓(xùn)練數(shù)據(jù)集,包含相同的問題但不同的RV分?jǐn)?shù)級別。然后,我們以Qwen2.5-7B-Instruct為初始化模型,在每個(gè)數(shù)據(jù)集上進(jìn)行SFT訓(xùn)練,以產(chǎn)生三個(gè)模型:短思維鏈(Short)、中等思維鏈(Medium)和長思維鏈(Long),結(jié)果如下(其中,藍(lán)色代表在特定任務(wù)上的分?jǐn)?shù),紅色折線代表平均輸出token數(shù)):

由上圖可見,在相對簡單的GSM8K任務(wù)中,所有模型表現(xiàn)出相似的性能;輸出token的增加沒有提高準(zhǔn)確性,甚至導(dǎo)致輕微下降。在中等難度的MATH500任務(wù)上,準(zhǔn)確度隨著token數(shù)的增加而提高,隨后下降,其中中等模型在產(chǎn)生適量token數(shù)時(shí)達(dá)到最高的準(zhǔn)確度。在最具挑戰(zhàn)的AIME24問題中,長模型獲得最高分;模型的準(zhǔn)確性隨著token數(shù)的增加而提高。因此,對于難度較大的問題,較長的思維鏈能夠糾正模型自身錯(cuò)誤,從而有效提高準(zhǔn)確性。然而,在簡單任務(wù)中,思維鏈中的過度推理和驗(yàn)證不僅增加了計(jì)算資源的消耗,還可能降低問題解決的準(zhǔn)確性。所以,我們可以根據(jù)任務(wù)難度構(gòu)建具備相應(yīng)RV級別思維鏈的訓(xùn)練集,從而最大化計(jì)算資源利用,同時(shí)確保高準(zhǔn)確性。

認(rèn)知難度(Cognitive Difficulty)

在構(gòu)建合適的思維鏈訓(xùn)練數(shù)據(jù)集時(shí),我們認(rèn)為思維鏈的難度應(yīng)與目標(biāo)模型的認(rèn)知能力相適應(yīng)。由于模型參數(shù)規(guī)模的顯著差異,大模型和小模型之間的認(rèn)知和推理軌跡并不總是一致。小模型在其參數(shù)限制下,往往依賴更簡單的方式解決問題,而大模型由于具備更高級的認(rèn)知能力,可能應(yīng)用更高水平的技術(shù)。例如,對于一個(gè)計(jì)算給定坐標(biāo)的三角形面積問題,小型模型可能采用簡單的幾何公式,而大型模型可能使用更復(fù)雜的方法,如基于向量的代數(shù)求解。

為驗(yàn)證這一假設(shè),我們使用DeepSeek-R1-Distill系列的三個(gè)模型進(jìn)行實(shí)驗(yàn):DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B,以及DeepSeek-R1-Distill-Qwen-32B。我們在MATH500數(shù)據(jù)集上評估這些模型。對于每個(gè)模型的思維鏈過程,我們利用DeepSeek-R1根據(jù)方法的復(fù)雜性和整體推理難度進(jìn)行0到9的難度評分(評分標(biāo)準(zhǔn)參見下文),結(jié)果如下表所示。

模型

平均評分

DS-R1-Distill-Qwen-1.5B

4.5

DS-R1-Distill-Qwen-7B

6.2

DS-R1-Distill-Qwen-32B

7.3

實(shí)驗(yàn)結(jié)果顯示,隨著模型參數(shù)量的增加,思維鏈的難度也在上升,這表明較大的模型擁有更強(qiáng)的推理和認(rèn)知能力。因此,困難的思維鏈可能不適合訓(xùn)練認(rèn)知能力較低的模型。因此,使用與模型認(rèn)知能力一致的思維鏈來提升其推理能力是至關(guān)重要的,這類似于“因材施教”的策略。在我們的工作中,認(rèn)知難度(Cognitive Difficulty,CD)分?jǐn)?shù)分級標(biāo)準(zhǔn)如下所示,具體用于評估CD的模版詳見相關(guān)論文:

0-1: 小學(xué)、入門級知識,或者單一簡單思考模式。2-3: 多步算術(shù),枚舉,基于基本規(guī)則的推理。4-5: 初級邏輯/代數(shù)知識;非顯而易見的推理。6-7: 使用高級技術(shù)(行列式,動(dòng)態(tài)規(guī)劃,代碼推理等)。8-9: 高度抽象的方法,包括嵌套證明、復(fù)雜算法分析等。

在OmniThought中,我們對所有驗(yàn)證正確的思維鏈進(jìn)行評分,CD分布如圖所示:

可以觀察到,CD評分峰值在4-5級,并逐漸向兩端減少。這一發(fā)現(xiàn)也表明,例如DeepSeek-R1或QwQ-32B的能力較強(qiáng)的推理模型,有不小的可能性生成難度極高的思維鏈。在進(jìn)行知識蒸餾時(shí),認(rèn)知能力有限的模型不太可能有效理解這些過程。因此,給定OmniThought集和基礎(chǔ)模型,可以根據(jù)基礎(chǔ)模型的認(rèn)知能力過濾訓(xùn)練數(shù)據(jù)集,從而有效提升模型的推理能力。

DistilQwen-ThoughtX:變長思維鏈推理模型

基于我們提出的OmniThought數(shù)據(jù)集,我們訓(xùn)練了DistilQwen-ThoughtX系列模型,由于我們可以通過RV和CD分?jǐn)?shù)對思維鏈進(jìn)行篩選,訓(xùn)練得到的模型獲得根據(jù)問題和本身的認(rèn)知能力,生成變長思維鏈的能力。具體地說,我們設(shè)置目標(biāo)模型的認(rèn)知能力為,即模型一般對于CD評分小于等于的思維鏈具有比較好的認(rèn)知能力。從經(jīng)驗(yàn)角度,我們的選擇一般與模型的參數(shù)量有關(guān)(具體的分析實(shí)驗(yàn)參見論文)。對于某推理問題,我們可以根據(jù)如下設(shè)置采樣合適的思維鏈:

從上面可以看出,我們假設(shè)對于CD級別小于等于的思維鏈,采樣概率都比較大,如果CD級別大于的思維鏈,采樣概率比較小。這可以保證模型訓(xùn)練數(shù)據(jù)集中大部分思維鏈的難度都不會(huì)過大,而少部分思維鏈的難度會(huì)偏高,從而能在訓(xùn)練時(shí)盡量推高模型推理能力的上限。

對于RV分?jǐn)?shù),我們有如下采樣規(guī)則:

這使得采樣得到的思維鏈的RV分?jǐn)?shù)和CD分?jǐn)?shù)差別不會(huì)太大。顯然,對于難度高的思維鏈,一般都需要比較長的推理長度,模型才能有效理解;反之亦然。同樣的,我們也容易看出,如果對于難度低的思維鏈進(jìn)行冗長推理,一般對模型推理效果有反作用;如果難度高的思維鏈進(jìn)行非常精簡的推理,參數(shù)規(guī)模較小的模型可能無法理解。

基于上述采樣方法,對于OmniThought中的708K個(gè)問題,我們抽樣出合適的思維鏈以通過SFT訓(xùn)練模型。我們從Qwen2.5系列(7B和32B)初始化,訓(xùn)練兩個(gè)模型,分別命名為DistilQwen-ThoughtX-7B和DistilQwen-ThoughtX-32B。我們將我們的模型與開源社區(qū)中的知名蒸餾推理模型進(jìn)行比較,結(jié)果匯總見表格。我們觀察到,基于OmniThought數(shù)據(jù)集和我們基于RV-CD的思維鏈選擇策略,我們模型效果優(yōu)異,表現(xiàn)甚至優(yōu)于DeepSeek官方采用閉源數(shù)據(jù)集蒸餾的模型。其中,DistilQwen-ThoughtX (Full)指使用全量思維鏈數(shù)據(jù)訓(xùn)練的模型,可以看出使用我們提出的評分和篩選方法訓(xùn)練的模型效果有明顯提升。

下表展示了DistilQwen-ThoughtX的性能表現(xiàn):

Model

AIME2024

MATH500

GPQA Diamond

LiveCodeBench V2

Avg.

7B量級

         

OpenThinker-7B

31.3

83.0

42.4

39.9

49.1

DeepSeek-R1-Distill-Qwen-7B

57.3

89.6

47.3

48.4

60.6

OpenThinker2-7B

50.0

88.4

49.3

55.6

60.8

DistilQwen-ThoughtX-7B (Full)

43.3

88.2

45.4

45.4

55.5

DistilQwen-ThoughtX-7B

56.7

90.2

50.0

56.8

63.4

32B量級

         

LIMO-32B

56.7

86.6

58.1

60.0

65.3

OpenThinker-32B

66.0

90.6

61.6

68.9

71.7

DeepSeek-R1-Distill-Qwen-32B

74.7

90.0

62.4

72.3

74.8

OpenThinker2-32B

76.7

90.8

64.1

72.5

76.0

Light-R1-32B

74.7

90.4

62.0

56.0

70.7

s1.1-32B

59.3

87.4

62.0

58.7

66.8

DistilQwen-ThoughtX-32B (Full)

70.0

91.8

59.6

70.1

72.8

DistilQwen-ThoughtX-32B

80.0

92.6

64.0

73.4

77.5

開源模型和數(shù)據(jù)集下載和使用

DistilQwen-ThoughtX在開源社區(qū)的下載

我們在Hugging Face和Model Scope上開源了我們蒸餾后的模型,分別為DistilQwen-ThoughtX-7B、DistilQwen-ThoughtX-32B。以Hugging Face為例,用戶可以使用如下代碼下載這兩個(gè)模型:

from huggingface_hub import snapshot_downloadmodel_name = "alibaba-pai/DistilQwen-ThoughtX-7B"snapshot_download(repo_id=model_name, cache_dir="./DistilQwen-ThoughtX-7B/")model_name = "alibaba-pai/DistilQwen-ThoughtX-32B"snapshot_download(repo_id=model_name, cache_dir="./DistilQwen-ThoughtX-32B/")

OmniThought數(shù)據(jù)集在開源社區(qū)的下載

我們在Hugging Face和Model Scope上開源了我們的數(shù)據(jù)集OmniThought。以Hugging Face為例,用戶可以使用如下代碼下載這兩個(gè)模型:

from datasets import load_datasetOmniThought = load_dataset("alibaba-pai/OmniThought")

本文小結(jié)

近年來,隨著大語言模型的出現(xiàn),自然語言處理領(lǐng)域發(fā)生了重要變革,其中深度推理模型在復(fù)雜推理任務(wù)中表現(xiàn)尤為突出。然而,長思維鏈推理可能導(dǎo)致“過度思考”,影響模型性能。為解決此問題,阿里云PAI團(tuán)隊(duì)開發(fā)了OmniThought數(shù)據(jù)集,其中包含200萬思維鏈,并標(biāo)注了推理冗余度(RV)和認(rèn)知難度(CD)分?jǐn)?shù)。這使得模型能夠根據(jù)任務(wù)自適應(yīng)選擇思維鏈長度,從而提升其推理能力。基于此數(shù)據(jù)集,我們推出了DistilQwen-ThoughtX系列模型,這些模型在性能上超過了DeepSeek-R1-Distill系列。為了支持社區(qū)用戶使用及優(yōu)化這些模型,我們在EasyDistill框架中開源了OmniThought數(shù)據(jù)集和DistilQwen-ThoughtX模型的全部權(quán)重。在未來,我們將進(jìn)一步基于EasyDistill框架開源更多DistilQwen模型系列和相應(yīng)資源。歡迎大家加入我們,一起交流大模型蒸餾技術(shù)!

參考工作

本文對應(yīng)論文

Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang. Reasoning with OmniThought: A Large CoT Dataset with Verbosity and Cognitive Difficulty Annotations. arXiv preprint

DistilQwen系列相關(guān)論文

Chengyu Wang, Junbing Yan, Wenrui Cai, Yuanhao Yue, Jun Huang. EasyDistill: A Comprehensive Toolkit for Effective Knowledge Distillation of Large Language Models. arXiv preprint

Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang. Training Small Reasoning LLMs with Cognitive Preference Alignment. arXiv preprint

Chengyu Wang, Junbing Yan, Yuanhao Yue, Jun Huang. DistilQwen2.5: Industrial Practices of Training Distilled Open Lightweight Language Models. ACL 2025

Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang. Building a Family of Data Augmentation Models for Low-cost LLM Fine-tuning on the Cloud. COLING 2025

Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang. Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning. EMNLP 2024

DistilQwen系列技術(shù)介紹

DistilQwen2:通義千問大模型的知識蒸餾實(shí)踐

DistilQwen2.5發(fā)布:通義千問蒸餾小模型再升級

DistilQwen2.5-R1發(fā)布:知識蒸餾助推小模型深度思考

星空人工智能平臺(tái) PAI DistilQwen2.5-DS3-0324發(fā)布:知識蒸餾+快思考=更高效解決推理難題

基于多輪課程學(xué)習(xí)的大語言模型蒸餾算法TAPIR

星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問題,煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時(shí)溝通與處理。?。?a href="/">首頁 > 星空人工智能產(chǎn)業(yè) > AI大模型 » DistilQwen-ThoughtX:變長思維鏈推理模型,超越DeepSeek蒸餾模型

感覺不錯(cuò),很贊哦! ()
分享到:

相關(guān)推薦

留言與評論(共有 0 條評論)
   
驗(yàn)證碼:
雷波县| 泗洪县| 齐齐哈尔市| 长兴县| 楚雄市| 方山县| 延津县| 南阳市| 肇东市| 民乐县| 麻城市| 长治市| 女性| 龙泉市| 兴国县| 德令哈市| 德钦县| 松江区| 朝阳县| 乐陵市| 兰考县| 株洲县| 小金县| 比如县| 靖西县| 灌云县| 宜川县| 丹东市| 邵阳市| 黔西| 揭西县| 昭苏县| 沅江市| 南郑县| 榆社县| 三明市| 乃东县| 伊川县| 阜城县| 大渡口区| 灵寿县|