作者
桑基韬
整理
维克多
人工智能目前最大的“拦路虎”是不可信赖性,以深度学习为基础的算法,在实验室环境下可以达到甚至超过人类的水平,但在很多实际应用场景下的性能无法保证,而且存在对抗鲁棒性、解释性、公平性等问题。
4月8日,在AITIME青年科学家——AI学者专场论坛上,北京交通大学计算机科学系教授、系主任桑基韬在报告《“超”人的机器学习:非语义特征的得与失》中,从两类虚假相关性角度解释了这种现象:
机器学习其实不管是目标,还是学习方式,都是类人的,是对人的知识蒸馏。这种知识蒸馏会出现两种情况:学的不够好,称为虚假相关性-1(欠蒸馏);学的太好了,称之为虚假相关性-2(过蒸馏)。
欠蒸馏,因为数据不完备,模型只学习到了训练数据的局部相关性,会存在分布外泛化和公平性等问题;过蒸馏是机器学习到了人难以感知/理解的模式,影响到了模型的对抗鲁棒性和解释性。
此外,桑教授还提出了将虚假相关性统一,探索非语义特征的学习和利用。以下是演讲全文,AI科技评论做了不改变原意的整理:
今天分享多媒体分析特别是计算机视觉中非语义特征的现象,分为三个部分:得、失和失而复得。报告内容受了很多工作的启发,其中有一些是我不成熟的思考,希望能和大家交流讨论。
1得:“超”人的机器学习和非语义特征
回顾人工智能和机器学习的发展史,在围绕和人类经典任务PK的过程中,AI已经超越了人类的表现。从年国际象棋深蓝”以3.5:2.5战胜人类国际象棋世界冠军卡斯帕罗夫,到年AlphaFold蛋白质结构预测超过人类,都在表明,AI已经可以模拟分析、推理、决策等人类重要能力。
但在“超人”的能力之外,也体现了AI在对抗攻击下的脆弱性。上图第二张图片,人类加了一些噪声之后,同样一个网络却给出了两种截然不同的答案:elephant与koala。
不仅是图像分类,对于对抗攻击下的决策、表示,AI也非常脆弱。例如,通过加入一些对抗噪声,以上图片经过神经网络能得到完全一致的特征表示,也就是人视觉不同、对抗攻击后表示完全相同。目前,对抗攻击有很多作恶的地方,例如无人驾驶中攻击路标识别;刷卡机中攻击人脸识别。
回顾对抗样本的发展,在年,Szegedy首次提出对抗样本问题的10年前,年就有欺骗算法,也叫敌手模型,攻击垃圾邮件检测器。年提出的深度学习对抗样本,重要的特点是其强调“人类察觉不到扰动”。此后,对抗样本研究发展,呈现“猫鼠游戏”的状态,没有绝对成功的攻击,也没有绝对的防御。
年有两个工作值得一提,对抗样本实体化,在各个视角欺骗神经网络的现实世界3D物体;通用对抗噪声UAP,对于不同的样本添加通用的噪声,都可以让模型出错。
年MITMadry团队的工作给了我们很大启发:对抗噪声本质是模型特征,对抗样本的分类器可以泛化到攻击类测试样本。具体而言,Madry通过两个实验得出两个结论:
1.对抗噪声可以作为目标类特征。如上图,是一张干净的小狗图片,通过加入“代表猫(特征)”的对抗噪声,让AI将其识别成猫。基于这些对抗攻击污染后的对抗样本训练的猫分类器在识别干净猫图像的任务中,却有不错的泛化。这就是利用对抗噪声训练的目标类分类器可以较好地泛化于真实的目标类样本。
2.非鲁棒特征对模型泛化性有贡献。把图像分成两类特征,一类是人可以理解,称为鲁棒特征,另一类是噪声,称为非鲁棒特征。当把图像非鲁棒特征去掉时,只利用这一部分特征去进行训练时候,会发现模型在样本上的准确性、泛化性是下降的。因此,可以得出结论非鲁棒特征对模型泛化性有贡献,有些信息人类不易理解但可以辅助模型推断。
除了对抗噪声能够体现人与AI算法的不同,是否