Hinton新作在线蒸馏,提升深度学

雷锋网AI科技评论按:Hinton团队最近发表了一篇关于「在线蒸馏」的新论文。论文里讲了什么呢?

我们为什么需要在线蒸馏?

近年来,随着深度学习技术的蓬勃发展,我们日常生活的每个角落都充满了「人工智能」的影子,并由此催生了许多新的业态、以人工智能应用为核心产品的初创公司也如雨后春笋般在科技行业中崭露头角。是的,这也许是人工智能(特别是深度学习)最好的时代。

然而,深度学习作为当今人工智能领域皇冠上最璀璨的明珠,如果要想将其推向工业级的应用,则往往需要可望而不可及的强大算力!而这种算力则是由价格高昂的硬件、庞大而复杂的分布式计算环境、精妙高效的算法作为支撑的。可想而知,除了Google、Amazon、阿里巴巴、百度等掌握强大计算资源的科技巨头外,想获得这样的计算资源对于小型企业或者个人用户可谓是天方夜谭。实际上,在很多普通的高等院校和科研单位中,拥有像TitanX或GTXTi这样的民用显卡已经是很奢侈的事情。更重要的是,由于基础架构的限制(分布式计算节点的通信、同步、任务调度等问题)、对模型进行优化求解的障碍、集成学习环境下各模型的贡献缺乏好的决策,使得盲目的堆砌计算资源也可能触碰到模型性能的天花板(例如:分布式随机梯度下降(distrtibutedSGD))。

为此,「深度学习泰斗」GeoffreyE.Hinton近年来在知识蒸馏(或者「暗知识提取」)方面做了一系列工作,试图通过这种从高计算能力要求、同时也具有高表现的模型中提取出一些隐含的知识,并且将其作为先验,通过设计新的网络结构和目标函数将这种知识「传授」给规模较小的深度学习网络,实现对网络模型的压缩,以显著缩小的网络规模和计算需求展现出尽量高的模型表现。最近,为了将这种思想部署在分布式环境中,用以突破如今常常被使用的分布式SGD(同步和异步形式)的瓶颈,Hinton团队又发布了名为「LARGESCALEDISTRIBUTEDNEURALNETWORKTRAININGTHROUGHONLINEDISTILLATION」(通过在线蒸馏的神经网络大规模分布式训练)的论文。在笔者看来,Hinton的这一系列工作进一步降低了深度学习模型应用的门槛,之前的研究对深度学习模型在移动终端上的部署、这篇论文对提高大规模计算集群上的模型表现和计算效率都有深远意义。

论文


转载请注明:http://www.aierlanlan.com/grrz/1994.html