下一代机器智能新框架ThrillK即时

澳福来白癜风保健膏 http://www.kingbaby.com.cn/gushi/12830.html

智能,无论是人的智能还是机器智能,都是以知识为基础的。在智能的有效性(它能达到什么效果)和效率(它在能量上消耗)之间找到适当的平衡是至关重要的。人类和智能机器应基于知识的三个层次——3LK——包括即时、备用和检索外部知识的原则,考虑规模、成本、任务多样性等因素,并不断适应。Thrill-K将作为AI系统架构蓝图引入,为下一代AI实现3LK原则。

过去十年是深度学习(DL)的时代,算法发生了变化,包括实施深度神经网络(DNN)、长短期记忆(LSTM),当然还有转换器。我们还看到了TensorFlow、PyTorch等框架的创新,这些框架驱动了具有特殊处理单元和神经网络(NN)处理单元的GPU或CPU等新硬件。DL已成为一种可行的技术,并将很快应用于交通、金融服务和基础设施等领域。

尽管DL取得了巨大的成就和潜力,但更先进的人工智能的下一代架构正在快速接近。到年,我们很可能会看到人工智能所展示的能力出现明显的飞跃,机器将变得更加智能。在这里,我将探索一种将知识集成到AI系统的新架构方法,它可以帮助减轻当今AI系统的一些基本限制。

知识的三个层次

生物体和计算机系统都必须具有即时知识才能对外部事件做出快速响应。这种知识代表了一种直接的输入到输出函数,它对精通领域内的事件或序列做出反应。此外,人类和先进的智能机器通过一些额外的处理来积累和利用更广泛的知识。我将第二级称为备用知识。

基于这种备用知识的行动或结果需要处理和内部解决,这使得它比即时知识慢。但是,它将适用于更广泛的情况。人类和智能机器需要与海量的世界知识进行交互,以便他们可以检索解决新任务或增加备用知识所需的信息。无论人脑内的知识范围或AI系统的边界是什么,都存在大量外部或最近相关的信息需要检索。我们将此第三级称为检索到的外部知识。

人类和智能机器必须访问所有三个层次的知识——即时、备用和检索外部知识——以平衡规模和成本与完成各种任务和持续适应的能力。为了说明,我将一些示例映射到三个知识层次。让我们将它们应用于两种情况:医生给病人开了两种药物,司机开车穿过社区。

即时知识

备用知识

检索外部知识

结合这三个层次的知识,人们可以有效地应对各种任务和情况——从完全掌握到获取和利用前所未有的信息。很多时候,任务的范围和种类太广而无法掌握,掌握一组新任务的成本可能很高。备用知识可以通过可用于在新情况下进行推理的知识大大扩展响应范围。然而,潜在相关信息的数量是巨大的,并且随着世界的发展和利益的转变而变化。在许多现实生活中,需要第三级检索到的外部知识。

人类和智能机器的三个知识层次

构想Thrill-K——机器智能知识架构的三个层次

Thrill-K(发音为“threel-kay”)是一个提议的人工智能系统架构蓝图,它利用了知识的三个层次(3LK)。它提供了一种在三个层次上表示和访问知识的方法——在用于瞬时知识的参数记忆中,在相邻的深度结构化知识库中进行推理提取,以及访问广泛的数字信息存储库,如维基百科、YouTube、新闻媒体等。

在关于以信息为中心的AI系统架构分类的系列文章中,我概述了三类信息访问和利用:具有完全封装信息的系统(例如,最近的端到端深度学习系统和语言模型,如GPT-3)、具有深度结构化知识的系统(例如,从知识图谱中提取,如ConceptNet或Wikidata),以及具有半结构化相邻信息的基于检索的系统(例如,从Wikipedia中检索)。总之,引入了Class3++,集成了所有三个级别的知识。这种包容性的Class3++架构就是我们所说的三层知识(或Thrill-K)架构。

支持更高机器智能的Thrill-K架构蓝图

上图提供了支持更高智能的分层AI系统蓝图。此Thrill-K系统图包括此类系统的所有构建块,但是流程(由箭头表示)可以根据使用和配置而变化。在图中所示的示例流程中,序列假定NN,后跟KB,如果需要,后跟外部资源。使用参数存储器中编码的瞬时知识的直接输入到输出路径。如果它检测到直接路径的不确定性或低置信度,系统会从其深度知识库中进行合理的提取。该知识库依赖于基于机器学习的知识获取来更新和刷新知识,因为新信息变得相关且足够有用以供添加。最后,如果AI系统找不到所需的知识,检索机制允许从可用存储库访问和检索必要的信息。其他流程也是可能的。例如,如果AI的任务是搜索KB或在外部存储库中查找段落,则相同的构建块将以不同的顺序进行配置。

应该注意的是,虽然这里的主要处理路径被描述为神经网络,但同样的分层原则也适用于其他类型的机器学习,将信息集成到处理中作为瞬时输入到输出路径的一部分。

这些知识水平内的信息量预计将处于不同的规模。备用知识包含的数量比即时知识多几个数量级,外部知识使内部备用知识的范围黯然失色。虽然每个知识级别的大小取决于应用程序,但对现有知识源的粗略估计可以提供对跨三个级别的信息量缩放的见解。

例如,即使是一个非常大的语言模型,如T5-11B,其权重矩阵的大小超过40GB,仍然比大型结构化知识源(如Wikidata)的未压缩总规模小30倍(截至年7月1日为GB)。反过来,维基数据比用于训练GPT-3的45TB书籍和网络数据文本语料库小30倍。虽然数据大小只是衡量信息的粗略代理,但30倍的比例因子可以作为下限,用于估计Thrill-K系统中每个后续知识级别的信息量如何增加。这个特殊的比例因子适用于纯语言系统。然而,由于该架构的知识结构被设计为固有的多模态,因此这种单模态因子严重低估了实际缩放因子。

将效率作为规模可行解决方案的驱动因素

随着智人在过去几十万年里不断进化,他们的智力得到了长足的发展。他们必须解决的信息量和任务范围大幅增加。一些人估计大脑的大小在过去的,年中保持不变,平衡其进化价值与以大约15瓦的速度燃烧20%的食物。如果人类大脑需要将体积增加10倍来支持这个新范围呢?不同之处在于提供的资源在大脑和新皮质等最近的子结构中使用的效率如何。

人工智能的大部分研究工作都侧重于结果,同时包括数据集大小、专业计算配置、计算和能源成本以及环境足迹方面淡化模型的效率。作为一项预计会渗透到所有行业、影响大部分计算并部署在从大型数据中心到边缘设备的任何地方的技术,效率需要成为首要考虑因素,以及实现的功能和成果。

规模很重要!因此,未来生成的预训练Transformer6(GPT-6)语言生成器不太可能成为广泛部署和使用的AI解决方案。如果GPT方法继续连续几代,它可能会随着许多参数、数据集大小、计算成本等的指数增长而发展。一旦它合并了世界的多模式表示,从视觉+语言开始,它将有额外数量级的数据和参数。

未来的模型需要拍字节(Petabytes)的数据,需要花费数亿美元来训练,以及大量的计算系统来运行推断,这些都是不可行的。

当前的趋势是将所有潜在的相关信息整合到参数记忆中,这使得超过1.5T参数的模型(例如Switch-C和WuDao)持续不了2-3年,因为考虑到经济能力,它将变得相当深奥。

在快速执行的直接路径中编码知识是昂贵的。直接用输入到输出执行路径编码的知识负担并扩展了该路径。在前向路径中应用的语言模型的大小增加倍以容纳更多的即时知识,计算成本将明显更高。将有更大的张量要移动,并且要执行更多的张量运算。虽然有一些方法可以减少数据移动量和神经网络计算量(例如,修剪、蒸馏、动态执行等),但随着NN模型大小的增加,能源成本不断增加,这一明显的总体趋势仍在继续。

知识的三个层次允许将大部分信息从神经网络参数内存转移到相邻的知识图中(或者甚至保存在大型信息库中以在需要时提取)。驻留在参数内存之外的信息和模型是“被动的”,因为它们不会被激活,并且在被访问之前不需要消耗任何能量。请注意,这种分层方法与GPT-3等完全封装的架构在类别上截然不同,后者假定AI系统可能使用的任何信息都必须在其单层参数内存中进行编码。

例如,在回答有关历史的问题时,人工智能在有关地质的整个知识部分不需要花费任何精力,这些知识可能会在非参数记忆中保持休眠和被动。此外,在训练期间,无需将训练后的模型暴露于将驻留在非参数内存中的所有信息。只要模型可以在测试和推理期间根据需要检索或提取信息,就无需通过记忆许多事实和关系来加重训练过程的负担。

具有不同规模和效率水平的系统原则似乎适用于许多设计和进化的系统。例如,基本的计算机体系结构具有多个级别的可访问信息。第一级是可操作的/速溶胶位于动态CPU高速缓存中,随时可用。另一个级别是主存储器,它要大几个数量级。信息从主内存中提取到缓存中并根据需要执行。更远的是磁盘和共享平台存储。

信息量比主存储器多几个数量级,信息根据需要进行检索。在每个连续的级别中,容量至少要高出2-3个数量级,每条信息在不使用时的维护成本要低得多,访问信息的延迟更长(更远的信息更不方便)和信息仅在需要时访问。

我相信生物系统正在使用类似的“基于齿轮”的系统来涵盖广泛的范围与效率任务。下面这个生物学原理,值得我们在模型中加以借鉴:

让我们以身体对糖的使用为例。在操作层面,葡萄糖在血液中循环,很容易转化为ATP并用作能量来源。一些来自营养的能量转化为脂肪长期储存或转化为糖原储存在肝脏和肌肉细胞中。当需要额外的能量时,这种储存可以在运动过程中将能量释放回肌肉。第三个层次是外部世界,它是身体的最终能量来源。

一个具有两个内部“齿轮”的系统——运行/瞬时和备用可访问可以在瞬时但有限和备用但很大之间创建一系列数量级。添加对外部资源的访问增加了访问速度较慢但巨大的第三个齿轮。三个级别的组合创建了跨内部和外部资源的非常广泛的操作。

Thrill-K对稳健性、适应性和更高智能的重要贡献

虽然将知识分层为三个层次对于规模、成本和能源是必不可少的,但它也是提高AI系统能力的必要条件。通过评估Thrill-K系统相对于端到端DL系统(称为Class1,完全封装的信息系统)的可能好处,可以看到这一点。

根据定义,Thrill-K是一种超集架构,其中包括一个有能力的NN,因此任何由NN提供良好服务的能力都可以通过扩展系统来实现。以下是一些可以由Thrill-K系统更好地支持的功能,该系统集成了用于提取和访问外部存储库的深度结构化知识。

结论:三级知识及其作为Thrill-K机器架构的表现

如前所述,在过去十年中,通过发展和利用深度学习,AI能力取得了重大飞跃。在经历了一些失败和挫折后,DL的杰出成就即将对多个行业和研究领域产生重大影响。然而,今天的深度学习系统并不具备许多任务所需的推理和高度认知,为此我们需要寻找一种新的方法。

人工智能正在进入工作场所、家庭和汽车,人工智能需要更高效,更有能力应用更接近人类水平的更高水平的自主推理。它需要具有适应性和感知、抽象、推理和学习能力。我们需要一个人工智能系统,它远远超出统计相关性、理解语言、整合知识和推理、适应新环境,并且更加健壮和可定制。

这不是通用人工智能或有意识的机器,而是更有能力的认知机器,可以对深层知识结构进行推理,包括事实、陈述性知识、因果知识、条件和上下文知识以及关系知识。达到机器智能的下一个级别将需要一种以知识为中心的神经符号方法,该方法将神经网络必须提供的最佳功能与附加结构(例如知识层次结构及其相关的互补优势)相结合。

通过应用三层知识层次结构和Thrill-K系统架构,我们可以构建未来的系统和解决方案,这些系统和解决方案可能会在这三个层次上划分知识,以创建可持续且可行的认知AI。它们包括:

Thrill-K为这种未来的人工智能架构提供了新的蓝图。它将渗透到整个系统和行业的人工智能架构,并提供一种有效和高效构建智能的方法。下一代人工智能架构就在我们面前,我们必须共同努力尝试新的方法,以便我们能够将最先进的技术推向更有能力、更负责任的人工智能系统。




转载请注明:http://www.aierlanlan.com/tzrz/2018.html