3分钟搞懂蒸馏

蒸馏 = 让小模型向大模型'拜师学艺'，用大模型的知识训练出又小又好的模型。

开发者Club

2026年4月10日

3 分钟阅读

AI人工智能知识蒸馏Knowledge Distillation小模型大模型模型压缩入门基础概念

阅读 —收藏 —

一句话定义

蒸馏 = 让小模型向大模型"拜师学艺"，用大模型的知识训练出又小又好的模型。

打个比方

想象一位资深教授（大模型）和一名学生（小模型）：

普通学习方式：

学生只看教材上的标准答案
知道"猫"就是猫，仅此而已

蒸馏学习方式：

学生能看到教授做判断时的"心理活动"
教授说："这张图 80% 是猫、15% 是豹子、5% 是狗"
学生不只学到了"答案"，还学到了教授的判断思路

这些"概率分布"就是软标签，它比标准答案含有多得多的信息。学生通过学习教授的软标签，能以小身材获得接近教授的判断力。

软标签 vs 硬标签对比

核心要点（3个）

1. 蒸馏是什么？

蒸馏（Knowledge Distillation）用大模型（Teacher）训练小模型（Student）：

大模型输出的不只是答案，还有对所有可能答案的概率分布
小模型去拟合这个概率分布，而不是只拟合正确答案
结果：同样大小的小模型，蒸馏训练的效果远超直接用数据训练

举例：DeepSeek R1 蒸馏——把 671B 参数的超大模型的"思维"，迁移到 7B/14B/32B 的小模型中，小模型表现远超同规模模型的平均水平。

Teacher→Student 知识蒸馏流程

2. 为什么有效？软标签的价值

直接用标签训练，模型只知道对错。用软标签训练，模型还能学到：

概念之间的相似关系："猫" 和 "豹子" 的关系比 "猫" 和 "汽车" 更近
大模型的不确定性：大模型也没把握时，小模型不会过度自信
暗知识（Dark Knowledge）：隐藏在大模型概率分布中、标准答案里没有的信息

这就是蒸馏比其他模型压缩方法更有效的根本原因。

3. 蒸馏 vs 其他技术

方法	目标	手段	代表例子
蒸馏	大→小，保留能力	用大模型软标签训练小模型	DeepSeek R1→7B/14B/32B
微调	通用→专业	用特定领域数据训练	医疗/法律AI
量化	缩小文件大小	压缩模型精度（32bit→4bit）	GGUF 格式

三者不互斥，实际中常组合使用：先蒸馏，再微调，最后量化部署。

蒸馏 vs 微调 vs 量化对比

为什么重要

蒸馏让"大模型的能力"变得更普惠：

💰 降低成本：用 7B 小模型替代 671B 大模型，推理成本降低百倍
📱 端侧部署：把大模型能力带到手机、IoT 设备
🚀 快速迭代：小模型响应速度快，适合实时应用
🔒 数据安全：本地运行蒸馏后的小模型，数据不离开设备

现实案例：

DeepSeek R1 蒸馏系列（7B/14B/32B）：推理能力媲美数倍大小的模型
GPT-4o mini：从更大模型蒸馏，成本仅为 GPT-4o 的约 1/15～1/20
Apple Intelligence：蒸馏后的小模型运行在 iPhone 芯片上

蒸馏的4大价值与落地场景

常见误解

误解1：蒸馏就是"压缩"，只是把模型变小

真相：蒸馏是知识迁移，不是简单截断。量化才是压缩——蒸馏训练出来的小模型，从一开始就比同规模的普通模型聪明。

误解2：蒸馏后小模型和大模型效果一样

真相：效果比同规模的普通训练小模型更好，但与大模型相比仍有差距。"站在巨人肩膀上"能看更远，但自身还是没巨人高。

误解3：蒸馏 = 微调（LoRA）

真相：微调是让已有模型学新技能；蒸馏是用大模型来教小模型，核心目标是在缩小模型的同时保留大模型的能力。

3秒总结

记住这3点就够了：

蒸馏 = 大模型教小模型，小模型学的是大模型的"思维过程"（软标签），不只是答案
软标签是关键，包含了标准答案里没有的"暗知识"，让小模型效果超出预期
DeepSeek R1 让蒸馏出圈，7B 小模型性能媲美数十倍参数的模型，就是蒸馏的功劳

时效性提醒

知识截止：2026-04-10

AI 领域发展极快，以下信息可能已过时：

蒸馏技术的最新变体（Self-play 蒸馏、合成数据蒸馏等）
各模型的参数量和性能基准
端侧部署的最新方案

建议：关注 Hugging Face、arXiv 获取最新进展

国内相关实践

模型/平台	蒸馏相关产品	特点
DeepSeek	R1 蒸馏系列（7B/14B/32B）	开源，效果最受关注
阿里 Qwen	Qwen2.5 系列小模型	中文强，多种尺寸
字节	Doubao 端侧模型	手机端部署
魅族	Flyme AI	国产手机蒸馏落地案例

💬 互动话题：你会选用大模型蒸馏出来的小模型，还是直接用大模型？（速度 vs 能力，你怎么权衡？）

📖 相关阅读：

3分钟搞懂AI微调和LoRA

3分钟搞懂强化学习(RLHF)

评论

登录后即可发表评论

加载评论中...