A: 知识提炼是一种将大型复杂模型(教师模型)的知识转移到小型模型(学生模型)中的方法。通过让学生模型学习模仿教师模型的泛化能力,可以在保持性能的同时,显著减小模型体积。
A: 软目标是指教师模型在Softmax层输出的类别概率分布,而不是硬标签(即one-hot编码的正确类别)。软目标包含了更多关于数据相似性和模型泛化的信息,可以帮助学生模型更好地学习。
A: 知识提炼适用于需要将大型模型部署到资源受限的设备上的场景,或者需要在保持模型性能的同时,减小模型体积的场景。例如,移动设备上的图像识别、语音识别等任务。
机器学习研究人员、深度学习工程师、对模型压缩和知识迁移感兴趣的从业者。
在大规模机器学习中,训练阶段和部署阶段的模型需求往往不同。训练阶段需要从大量冗余数据中提取结构,而部署阶段则对延迟和计算资源有更严格的要求。知识提炼方法正是在这种背景下提出的,旨在解决大型模型部署困难的问题。