知识蒸馏 (Knowledge Distillation)

模型压缩与加速的经典方法

基于 Hinton 2014年 NIPS 论文《Distilling the Knowledge in a Neural Network》

引言

知识蒸馏的基本思路

提升性能和落地部署不要用相同的模型

大模型的Softmax输出概率里面富含知识

我们要学的不是真值标签!要学的其实是泛化能力!

怎么学习泛化能力呢?知识蒸馏!

当"soft targets"携带信息太少怎么办?用高温T煮出来!

关于训练集

蒸馏过程

知识蒸馏过程示意图

再来说说T的取值

温度T对Softmax输出的影响 温度T的公式

总结

参考资料