麻省理工学院人工智能全新突破,零数据样本

孩子们有时不需要任何实例就能认出一头独角兽,人工智能(AI)算法能做到这一点么?全新的“次单样本”学习使算法模型能够识别的对象远多于它所训练的样本量,数据样本的需求甚至可以接近为零。

机器学习通常需要海量的数据样本。要让AI模型识别一匹马,你需要向它展示数千张马的图片。这就是该项技术计算成本高昂并且与人类学习截然不同的原因。而一个孩子通常只需看到一个物体的几个甚至一个实例,就一辈子都能认出它来。

事实上,孩子们有时不需要任何实例就能辨别事物。当他们看到一匹马和一头犀牛的照片,并被告知独角兽介乎两者之间时,他们第一次在绘本中看到这个神秘生物就能认出它。

嗯,好吧,也不全都是这样。

现在来自安大略省滑铁卢大学的一篇新论文指出,AI模型也应该能做到这一点,研究者称之为“次单样本”学习(“Lessthanone”-shotlearning)。换句话说,AI模型应该能准确识别出比它所训练的样本数量更多的对象。这对于一个越来越昂贵和难以达到的领域来说可能是件大事,因为所用的数据集变得日益庞大。

“次单样本”学习的工作原理

研究人员首次证明这一想法,是在实验被称为MNIST的流行计算机视觉数据集时。MNIST包含6万张从0到9的手写数字训练图像,常被用来测试该领域的新想法。

在此前的一篇论文中,麻省理工学院研究人员引入一项技术,将海量数据集“蒸馏”成小数据集,作为概念验证,他们将MNIST压缩到只有10张图片。图片不是从原始数据集中选择,而是经过精心设计和优化,包含了完整数据集的同等信息量。因此,当专门训练这10张样本图片时,AI模型能实现的精度与训练MNIST的全部图片几乎相同。

MNIST数据集中的样本图片

新技术使AI模型的手写数字识别精度达到94%

滑铁卢大学的研究人员想进一步研究这种蒸馏过程。如果能把6万张图片压缩到10张,为什么不把它们压缩到5张呢?他们意识到,诀窍在于创建混合多个数字的图片,然后将它们输入带有混合或“软”标签的AI模型。(想想带有部分独角兽特征的马和犀牛。)

滑铁卢大学博士生、该论文第一作者IliaSucholutsky说:“想想数字3,它也有点像数字8,但一点也不像数字7。软标签试图捕捉这些共有特征。因此,我们不是告诉机器,‘这张图片是数字3,’我们会说,‘这张图片是数字3的可能性是60%,是数字8的可能性是30%,是数字0的可能性是10%。’”

“次单样本”学习的局限性

当研究人员成功地使用软标签在MNIST上实现“次单样本”学习时,他们开始琢磨这个想法究竟能走多远。能够让AI模型从小样本量中识别的类别数量有限制吗?

令人惊讶的是,答案似乎是否定的。使用精心设计的软标签,即使只有两个样本,理论上也能编码出任意数量的类别。Sucholutsky说:“通过两个点,你可以分出一千个类别、一万个类别或一百万个类别。”

按重量和颜色为苹果(绿点和红点)和橙子(橙点)绘图

这正是研究人员在其最新论文中用纯数学探究所展示的。他们用一种最简单的机器学习算法K近邻算法(K-nearestneighbors,KNN)来实现这一概念,该算法使用图形方法对对象进行分类。

要理解KNN的工作原理,让我们以水果分类为例。如果你想训练KNN模型理解苹果和橙子之间的差异,就必须首先选择你打算用来代表每个水果的所有特征。

或许你会选择颜色和重量,将每个苹果和橙子的颜色作为x值、重量作为y值给KNN提供一组数据点。KNN算法再将所有数据点绘制在一个2D图表上,并沿着苹果和橙子的中间直线画出一条边界线。

在这一点上,图被整齐地分成两类,算法现在能根据新的数据点落在直线的哪一边来决定它们是代表这一类还是那一类。

为了探究使用KNN算法的“次单样本”学习,研究人员创建了一系列小型合成数据集并精心设计其软标签。然后他们让KNN绘制它看到的边界线,发现它成功地将该图分成了更多类别而不是数据点。研究人员对边界线落在何处也有严格的控制。通过对软标签进行各种调整,他们能让KNN算法绘制出花朵形状的精确图案。

如上图,研究人员用软标签样本训练KNN算法来给日益复杂的边界线编程,将图表分割成更多类别而不是数据点。图中的每个有色区域代表一个不同的类别,而每个图旁边的饼图显示了每个数据点的软标签分布情况。

当然,这些理论探索也有一定的局限性。尽管“次单样本”学习的理念应该转移到更复杂的算法,但设计软标签样本的任务实际上更困难了。

KNN算法具有可解释性和可视性,这使由人类来设计标签成为可能。神经网络既复杂又难以理解,这意味着同样的情况可能不是真的。

用于为神经网络设计软标签样本的数据蒸馏还有个重大缺陷:它要求从一个海量数据集开始,以便将其缩小为更高效的数据集。

Sucholutsky说,他现在正致力于寻找其他方法来设计这些小型合成数据集,不管是人工设计还是使用其他算法。尽管存在这些额外的研究挑战,然而,这篇论文为“次单样本”学习提供了理论基础。他说:“结论取决于你拥有哪种类型的数据集,你也许能获得巨大的效率提升。”

这正是王同州(音)最感兴趣的,他是麻省理工学院博士生,领导了早期的数据蒸馏研究。“这篇论文建立在一个真正新颖而重要的目标之上:从小数据集学习强大的算法模型,”他谈到Sucholutsky的贡献时说。

蒙特利尔人工智能伦理研究所(MontrealAIEthicsInstitute)研究员RyanKhurana也赞同这种观点:“最重要的是,‘次单样本’学习将从根本上减少构建可运行模型的数据需求。”这将使人工智能更容易被迄今为止受该领域数据需求阻碍的公司和行业获得。它还可以提高数据的隐私性,因为只需从个人身上提取更少的信息就能训练出有用的模型。

Sucholutsky强调,这项研究还处于早期阶段,但他很兴奋。他说每次他开始向同事们展示他的论文时,他们的第一反应都是说这个想法是不可能的。当他们突然意识到事实并非如此时,就会打开一个全新的世界。

来源:麻省理工学院技术评论,作者:KarenHao

译者:Sail

声明:著作权所有,转载需授权

更多精彩内容,请


转载请注明:http://www.aierlanlan.com/rzdk/2063.html