如果当时刘伊凡把那封邮件移到垃圾箱,她大概会和剑桥大学研究员的offer擦肩而过。
图
刘伊凡(来源:资料图)
几个月前,一位自称是高校教授的发信人,在邮件中表示自己有谷歌的工作经历,现在要成立一个新课题组,希望能招到高水平的科研人员,他问刘伊凡是否愿意谈一谈。邮件内容很短,也无法核实发信人身份,一开始刘伊凡以为是诈骗邮件,后来她看了下邮箱后缀,发现是剑桥大学的邮箱。于是她给对方回邮件,并表示可以继续沟通。交流中,刘伊凡获悉对方是剑桥大学去年刚入职的AP,想要组建一个AR实验室,目前刚好需要视觉感知的人才,做一些3D和感知结合的研究。
就这样,这位来自河北沧州的28岁女生,拿到了剑桥大学的offer。
图
刘伊凡的个人首页(来源:受访者)
去年,她还获得了GooglePhDFellows,这个竞争激烈的奖项每年在机器视觉与感知方向面向全球颁发大约10个奖学金,金额为美元,还会提供谷歌实习机会以及Google研究导师的指导。
首次投稿顶会,探索知识蒸馏新应用
前不久,她刚从澳洲阿德莱德大学博士毕业师从沈春华教授,本硕就读于北京航空航天大学自动化科学与电气工程学院,师从秦曾昌教授。读博刚刚开始的第一年,她在微软亚洲研究院实习期间,首次顶会投稿的结构化蒸馏这篇论文,就被CVPR录取为oral文章。
关于知识蒸馏的研究从-年就开始了。它是模仿人类的学生向老师学习知识的过程。利用高性能但是推理速度慢的大模型作为教师模型,轻量化但是性能不好的模型作为学生模型。利用大模型输出来帮助监督小模型,从而提升小模型的性能。
图
刘伊凡(来源:受访者)
此前大多数的蒸馏方法研究集中在分类问题中,也有一些方法直接把分类问题中提出的蒸馏方法应用在目标检测任务中。然而该研究提出,针对输出具有结构化的任务,利用输出之间相互的结构化约束,可以设计出更加有效的蒸馏策略。
视觉任务中很多稠密预测任务的输出都是结构化输出。例如语义分割任务,它是计算机视觉中的一项基本任务,具有许多实际应用比如自动驾驶、视频监控、虚拟现实等。语义分割任务旨在预测输入图像中每个像素的类别标签,同一个物体应当拥有同样的语义标签,相近的类别学习出的特征表达应该更为类似,这就是语义分割任务中的结构化信息。
(来源:资料图)
为了建模这种稠密任务中的结构化信息,刘伊凡提出了两种蒸馏策略。
基于配对的蒸馏方案,是由广泛研究的对马尔可夫随机场框架来加强空间标记连续性,这样做的目的是加强空间标记的连续性,让从紧凑型网络和繁琐型网络的像素之间的对等相似性实现对齐。
而整体蒸馏方案的目的,是在紧凑型分割网络生成的分割映射和繁琐的分割之间,对不具有像素化和对向式精馏特征的高阶一致性,利用卷积网络的输入进行建模,借助生成对抗网络的主要思想,把教师模型的输出作为真实分布,学生网络的输出作为生成的虚假分布,通过对抗性训练方案使得学生网络的分布与教师网络的一致。
(来源:资料图)
研究中,通过在CamVid、Cityscapes和ADE20K三个场景解析数据集上的大量实验,证明了结构化知识蒸馏方法的有效性。
年的CVPR是疫情前的最后一次线下CVPR会议,刘伊凡有幸前往美国长滩参会,在会议上面对上千人宣讲了她的工作。会后,也有许多高校和工业界的研究院表现出了对这一工作的兴趣,这让刘伊凡感受到设计和训练稠密任务的轻量化模型是学界和工业界都非常