Improved Knowledge Distillation via Teacher Assistant

student和teacher网络之间的差距较大时,student网络的性能会下降,故引入多步知识提炼,即采用一个中等规模的网络(teacher assistant)来弥合student与teacher之间的鸿沟。

提出原因:当student与teacher网络之间结果差异较大时,普通知识蒸馏方法表现并不太好。

介绍

Teacher Assistant(TA):

  • TA网络自teacher网络提炼而来
  • 在蒸馏过程中,TA作为teacher网络来训练student