Improved Knowledge Distillation via Teacher Assistant Posted on 2020-04-03 | In Papers student和teacher网络之间的差距较大时,student网络的性能会下降,故引入多步知识提炼,即采用一个中等规模的网络(teacher assistant)来弥合student与teacher之间的鸿沟。 提出原因:当student与teacher网络之间结果差异较大时,普通知识蒸馏方法表现并不太好。 介绍Teacher Assistant(TA): TA网络自teacher网络提炼而来 在蒸馏过程中,TA作为teacher网络来训练student