机器之心报道
编辑:陈萍、杜伟
DeepMind表示,他们提出的算法蒸馏(AD)是首个通过对具有模仿损失的离线数据进行顺序建模以展示上下文强化学习的方法。同时基于观察结果开启了一种可能,即任何RL算法都可以通过模仿学习蒸馏成足够强大的序列模型如transformer,并将这些模型转换为上下文RL算法。
目前,Transformers已经成为序列建模的强大神经网络架构。预训练transformer的一个显著特性是它们有能力通过提示conditioning或上下文学习来适应下游任务。经过大型离线数据集上的预训练之后,大规模transformers已被证明可以高效地泛化到文本补全、语言理解和图像生成方面的下游任务。
最近的工作表明,transformers还可以通过将离线强化学习(RL)视作顺序预测问题,进而从离线数据中学习策略。Chenetal.()的工作表明,transformers可以通过模仿学习从离线RL数据中学习单任务策略,随后的工作表明transformers可以在同领域和跨领域设置中提取多任务策略。这些工作都展示了提取通用多任务策略的范式,即首先收集大规模和多样化的环境交互数据集,然后通过顺序建模从数据中提取策略。这类通过模仿学习从离线RL数据中学习策略的方法被称为离线策略蒸馏(OfflinePolicyDistillation)或策略蒸馏(PolicyDistillation,PD)。
PD具有简单性和可扩展性,但它的一大缺点是生成的策略不会在与环境的额外交互中逐步改进。举例而言,谷歌的通才智能体Multi-GameDecisionTransformers学习了一个可以玩很多Atari游戏的返回条件式(return-conditioned)策略,而DeepMind的通才智能体Gato通过上下文任务推理来学习一个解决多样化环境中任务的策略。遗憾的是,这两个智能体都不能通过试错来提升上下文中的策略。因此PD方法学习的是策略而不是强化学习算法。
在近日DeepMind的一篇论文中,研究者假设PD没能通过试错得到改进的原因是它训练用的数据无法显示学习进度。当前方法要么从不含学习的数据中学习策略(例如通过蒸馏固定专家策略),要么从包含学习的数据中学习策略(例如RL智能体的重放缓冲区),但后者的上下文大小(太小)无法捕获策略改进。
论文