3分钟搞懂蒸馏
蒸馏 = 让小模型向大模型'拜师学艺',用大模型的知识训练出又小又好的模型。
一句话定义
蒸馏 = 让小模型向大模型"拜师学艺",用大模型的知识训练出又小又好的模型。
打个比方
想象一位资深教授(大模型)和一名学生(小模型):
普通学习方式:
- 学生只看教材上的标准答案
- 知道"猫"就是猫,仅此而已
蒸馏学习方式:
- 学生能看到教授做判断时的"心理活动"
- 教授说:"这张图 80% 是猫、15% 是豹子、5% 是狗"
- 学生不只学到了"答案",还学到了教授的判断思路
这些"概率分布"就是软标签,它比标准答案含有多得多的信息。学生通过学习教授的软标签,能以小身材获得接近教授的判断力。

核心要点(3个)
1. 蒸馏是什么?
蒸馏(Knowledge Distillation)用大模型(Teacher)训练小模型(Student):
- 大模型输出的不只是答案,还有对所有可能答案的概率分布
- 小模型去拟合这个概率分布,而不是只拟合正确答案
- 结果:同样大小的小模型,蒸馏训练的效果远超直接用数据训练
举例:DeepSeek R1 蒸馏——把 671B 参数的超大模型的"思维",迁移到 7B/14B/32B 的小模型中,小模型表现远超同规模模型的平均水平。

2. 为什么有效?软标签的价值
直接用标签训练,模型只知道对错。用软标签训练,模型还能学到:
- 概念之间的相似关系:"猫" 和 "豹子" 的关系比 "猫" 和 "汽车" 更近
- 大模型的不确定性:大模型也没把握时,小模型不会过度自信
- 暗知识(Dark Knowledge):隐藏在大模型概率分布中、标准答案里没有的信息
这就是蒸馏比其他模型压缩方法更有效的根本原因。
3. 蒸馏 vs 其他技术
| 方法 | 目标 | 手段 | 代表例子 |
|---|---|---|---|
| 蒸馏 | 大→小,保留能力 | 用大模型软标签训练小模型 | DeepSeek R1→7B/14B/32B |
| 微调 | 通用→专业 | 用特定领域数据训练 | 医疗/法律AI |
| 量化 | 缩小文件大小 | 压缩模型精度(32bit→4bit) | GGUF 格式 |
三者不互斥,实际中常组合使用:先蒸馏,再微调,最后量化部署。

为什么重要
蒸馏让"大模型的能力"变得更普惠:
- 💰 降低成本:用 7B 小模型替代 671B 大模型,推理成本降低百倍
- 📱 端侧部署:把大模型能力带到手机、IoT 设备
- 🚀 快速迭代:小模型响应速度快,适合实时应用
- 🔒 数据安全:本地运行蒸馏后的小模型,数据不离开设备
现实案例:
- DeepSeek R1 蒸馏系列(7B/14B/32B):推理能力媲美数倍大小的模型
- GPT-4o mini:从更大模型蒸馏,成本仅为 GPT-4o 的约 1/15~1/20
- Apple Intelligence:蒸馏后的小模型运行在 iPhone 芯片上

常见误解
误解1:蒸馏就是"压缩",只是把模型变小
真相:蒸馏是知识迁移,不是简单截断。量化才是压缩——蒸馏训练出来的小模型,从一开始就比同规模的普通模型聪明。
误解2:蒸馏后小模型和大模型效果一样
真相:效果比同规模的普通训练小模型更好,但与大模型相比仍有差距。"站在巨人肩膀上"能看更远,但自身还是没巨人高。
误解3:蒸馏 = 微调(LoRA)
真相:微调是让已有模型学新技能;蒸馏是用大模型来教小模型,核心目标是在缩小模型的同时保留大模型的能力。
3秒总结
记住这3点就够了:
- 蒸馏 = 大模型教小模型,小模型学的是大模型的"思维过程"(软标签),不只是答案
- 软标签是关键,包含了标准答案里没有的"暗知识",让小模型效果超出预期
- DeepSeek R1 让蒸馏出圈,7B 小模型性能媲美数十倍参数的模型,就是蒸馏的功劳
时效性提醒
知识截止:2026-04-10
AI 领域发展极快,以下信息可能已过时:
- 蒸馏技术的最新变体(Self-play 蒸馏、合成数据蒸馏等)
- 各模型的参数量和性能基准
- 端侧部署的最新方案
建议:关注 Hugging Face、arXiv 获取最新进展
国内相关实践
| 模型/平台 | 蒸馏相关产品 | 特点 |
|---|---|---|
| DeepSeek | R1 蒸馏系列(7B/14B/32B) | 开源,效果最受关注 |
| 阿里 Qwen | Qwen2.5 系列小模型 | 中文强,多种尺寸 |
| 字节 | Doubao 端侧模型 | 手机端部署 |
| 魅族 | Flyme AI | 国产手机蒸馏落地案例 |
💬 互动话题:你会选用大模型蒸馏出来的小模型,还是直接用大模型?(速度 vs 能力,你怎么权衡?)
📖 相关阅读: