农企新闻网

UC伯克利 ICLR 论文:论如何教强化学习模型骑自行车去金门大桥?

发布者:陈夕一
导读雷锋网 AI 科技评论按:本文的作者是来自加州大学伯克利分校人工智能实验室(BAIR)的博士生Vitchyr Pong,他的主研方向为深度强化学习。在本篇博客中作者引见了本人宣布于正在停止的 ICLR 2018 的一项最新任务——工夫差分模型(Temporal Difference Models),该模型属于强化学习中的一种,并且很好地综合了无模型办法与基于模型办法两种战略各自的优点,雷锋网 AI

雷锋网 AI 科技评论按:本文的作者是来自加州大学伯克利分校人工智能实验室(BAIR)的博士生 Vitchyr Pong ,他的主研方向为深度强化学习。在本篇博客中作者引见了本人宣布于正在停止的 ICLR 2018 的一项最新任务——工夫差分模型(Temporal Difference Models),该模型属于强化学习中的一种,并且很好地综合了无模型办法与基于模型办法两种战略各自的优点,雷锋网 AI 科技评论依据原文停止了编译。

UC伯克利 ICLR 论文:论如何教强化学习模型骑自行车去金门大桥?

假定你想从伯克利加州大学旁的房子骑行前往金门大桥。虽然这将会是一段景色优美的20英里骑行,但是却存在一个严重的成绩:你历来没有骑过自行车!更蹩脚的是,你刚搬来湾区所以你对这里一点都不熟习,而你所能依赖的独一工具就是一份制造精良的最新地图。那么你该如何开端这趟旅程?

首先我们需求弄清楚自行车是怎样骑的。其中一种战略是停止少量的学习和规划,阅读关于如何骑自行车的书籍,以及学习物理学和人体构造,规划好你为了应对每种扰动而做出的一切不同的肌肉运动。这种办法虽然乍看之下十分零碎和初级,但是关于任何学过自行车的人来说,他们都晓得这种战略注定是要失败的。现实上学习如何骑自行车只要独一一种办法:尝试和犯错。由于像骑自行车这样的义务真实是太过于复杂了,它远远超出了你所能规划的范围。

而一旦你学会了如何骑自行车,你又将如何前往金门大桥?你可以再次运用 尝试和犯错战略(Trial-and-error strategy) 。你开端尝试着漫无目的地在四周瞎转了几圈,看看能否能碰巧找到金门大桥。可是不幸的是,采取这一战略会耗费你少量的工夫。关于这样的成绩, 规划(Planning) 就是一种来得更快的战略,并且只需求相当少的理想世界的经历(Real-world experience)和试错(Trial-and-error)次数。在强化学习的术语中,这就是具有更好的采样效率(Sample-efficient)。

UC伯克利 ICLR 论文:论如何教强化学习模型骑自行车去金门大桥?

左图:某些技艺需求你经过不时尝试和犯错停止学习掌握;右图:而某些时分,延迟做好规划会来的更好

刚刚这项思想实验虽然很复杂,但是它却突出了人类智能的一些重要方面。关于某些义务,我们会运用尝试和犯错的办法,而关于其它的一些义务我们则运用规划的战略。强化学习(Reinforcement learning, RL)中似乎存在相似的景象。依照强化学习的说法,实验后果证明, 一些义务更合适于无模型(尝试和犯错)办法,而另外一些义务则更合适于基于模型的办法(规划)

但是,骑自行车的类比也强调了这两个零碎并不是完全独立的。特别是,说学骑自行车的进程只是试错法的说法也是过于简化。现实上,当经过重复试错学习骑车时,你也会采用一些规划办法。也许你的初始方案是「不要摔倒」,然后随着你的提高,你会制定愈加雄心勃勃的方案,比方「自行车向前走两米却不会摔倒」,最终,你的自行车骑行技巧开端变得娴熟,所以你开端给本人制定一些十分笼统的方案(「骑到路的止境」),在这个阶段你所需求做的事情就是停止规划,而不需求再去担忧关于骑自行车的细节成绩。经过这个进程,我们可以看到,这两头我们逐步从无模型(尝试和犯错)战略过渡到基于模型(规划)的战略。那么假如我们可以开收回能模仿这种行为的人工智能算法(特别是强化学习算法), 该算法就有能够同时具有高功能(算法学习晚期的时分采用试错办法)和高采样效率(之后切换到规划办法来完成愈加笼统的目的)的优点

这篇文章引见了工夫差分模型(Temporal difference model, TDM),它属于强化学习的一种,并且可以 完成无模型和基于模型的强化学习之间的平滑过渡 。在引见工夫差分模型之前,我们将首先引见一个典型的基于模型的强化学习是如何任务的?

基于模型的强化学习

在强化学习算法中,我们有一些形态空间 S 和举措空间 A。假如在工夫 t 我们处于形态
,然后采取举措
,我们将依据静态模型(Dynamics model)
转移到新形态
。然后我们的目的是最大化之前一切到达过的形态的奖励之和:
。基于模型的强化学习算法假定我们曾经给出(或许学习)静态模型 f。鉴于这个静态模型,理想中曾经存在有许多基于模型的算法。关于本文,我们思索执行以下优化的办法来选择一系列举措和形态以最大化奖励:

UC伯克利 ICLR 论文:论如何教强化学习模型骑自行车去金门大桥?

这个优化函数将指点算法选择一系列形态和举措以最大化奖励,同时还将确保轨迹是可行的。在这里轨迹可行意味着,每一个以后形态到下一个形态的转换都是无效的。例如,在上面的图片中,假如你从 s t 形态开端并采取举措,则只要最下面一行的 s t+1 形态是可行的转换。

UC伯克利 ICLR 论文:论如何教强化学习模型骑自行车去金门大桥?

假如你能蔑视物理规则,那么你前往金门大桥的游览规划能够会来得容易得多。但是,基于模型的优化成绩中的约束确保了只能输入最下面一行的轨迹。虽然剩下的两条轨迹能够带来更高的奖励,但它们是不可行的。

在我们的自行车成绩中,优化后果能够发生如下图这样一条道路规划,自行车从伯克利动身(右上角),最终抵达金门大桥(左侧中部):

UC伯克利 ICLR 论文:论如何教强化学习模型骑自行车去金门大桥?

一个规划(形态和举措)的例子输入了优化成绩

虽然这在概念上而言挺好的,但是这个规划在理想中却不太理想。基于模型的办法在每一次工夫步(Time step)运用模型 f(s, a) 来预测下一次的形态。在机器人技术中,一个工夫步长通常相当于非常之一秒或百分之一秒。因而,关于最终规划的更理想描绘能够如下所示:

UC伯克利 ICLR 论文:论如何教强化学习模型骑自行车去金门大桥?

一个愈加理想的规划

假如我们略微考虑一下本人在每天日常生活中是如何停止规划的,我们就会认识到我们方案的工夫更为笼统。我们并没有规划自行车在接上去的非常之一秒将所处的地位,而是制定了更临时的方案,例如「我将走到路的止境」。此外,我们只要在开端的时分曾经学会了如何骑自行车,才干制定出这些工夫笼统规划(Temporally abstract plans)。正如后面所述,我们需求一些办法来(1)刚开端学习时采用试错办法;然后(2)提供一种机制来逐渐进步我们规划的笼统水平。为此,我们引入了工夫差分模型。

工夫差分模型(Temporal Difference Models)

工夫差分模型可以写成 Q(s, a, s g , τ),这个函数的含义是,给定一个形态 s,举措 a 和目的形态 s g ,去预测智能体在 τ 工夫步内可以在多大水平上去接近目的。直观而言,工夫差分模型答复了这样的成绩「假如我要在 30 分钟内骑自行车前往旧金山,那么我能走到间隔旧金山多远的间隔?」。关于机器人技术,测量接远程度的一种很自然的办法就是欧几里得间隔。

UC伯克利 ICLR 论文:论如何教强化学习模型骑自行车去金门大桥?

工夫差分模型预测在一段固定的工夫之后,你还间隔目的(金门大桥)有多远。骑自行车行走 30 分钟后,也许你只能抵达上图中的灰色骑行者图标的地位。在这种状况下,灰色线条表示工夫差分模型应该预测到的间隔。

关于那些熟习强化学习的人来说,现实证明工夫差分模型可以被看做无限期马尔科夫决策进程(Finite-horizon Markov Decision Process)中的目的条件 Q 函数。由于工夫差分模型只是另一个 Q 函数,所以我们可以运用无模型(试错法)算法对其停止训练。我们运用 深度确定性战略梯度(Deep deterministic policy gradient, DDPG) 来训练工夫差分模型,并追溯性地重新标志目的和工夫范围,以进步学习算法的采样效率。虽然实际上讲,任何 Q 学习算法都可以用来训练工夫差分模型,但是我们发现这么做是愈加无效的。读者们如何想要理解更多的细节请阅读我们的论文。

经过工夫差分模型停止规划

假如我们完成了工夫差分模型的训练之后,我们要如何运用它来停止规划呢?现实证明,我们可以经过以下优化来停止规划:


直观来看,该公式与基于模型的公式十分类似,都是选择可以最大化奖励并且轨迹可行的一系列举措和形态。而一个关键的区别就是我们只规划每 K 个工夫步,而不是对每个工夫步停止规划。Q(s t , a t , s t+K , K) = 0 的约束限制了轨迹的可行性。视觉上而言,针对每个工夫步停止规划的状况就像下图:


取而代之的是,我们可以针对这 K 个工夫步直接停止规划,如下图:


随着 K 值的增大,我们将失掉在工夫上越来越笼统的规划。在 K 个工夫步之间,我们运用无模型办法来采取举措,从而允许无模型战略「笼统出」 到达目的进程中的完成细节。关于骑车成绩,采用足够大的 K 值,最终优化的后果能够会生成如下图的一个规划:

UC伯克利 ICLR 论文:论如何教强化学习模型骑自行车去金门大桥?

基于模型的规划者可以被用于选择工夫笼统目的,而无模型算规律可以被用于完成这一目的。

一个需求留意的点是,这个公式只能在每 K 个步骤中优化奖励。但是,许多义务只关怀一些形态,例如最终形态(比方说「到达金门大桥」),因而该办法仍然能捕捉到各种各样风趣的义务。

相关任务

现实上,我们并不是第一个看到基于模型和无模型强化之间联络的人。 Parr'08  和 Boyan'99  特别相关,虽然他们次要关注表格式和线性函数迫近器。在 Sutton'11  和 Schaul'15  中,在机器人导航和 Atari 游戏的背景下,还探究了训练目的条件 Q 函数的想法。最初,我们运用的再次标签方案(Relabelling scheme)则是遭到了 Andrychowicz'17  任务的启示。

实验

我们在五个模仿延续控制的义务和一个真实世界的机器人义务上测试了工夫差分模型。其中一项模仿义务是训练机器人手臂将气缸推送到目的地位。上面展现了最终完成推进气缸的工夫差分模型战略和相关的学习曲线:

UC伯克利 ICLR 论文:论如何教强化学习模型骑自行车去金门大桥?

成功达成了目的义务的工夫差分模型战略

UC伯克利 ICLR 论文:论如何教强化学习模型骑自行车去金门大桥?
学习曲线,工夫差分模型的曲线是蓝色的(波动时,曲线越低阐明功能越好)

在学习曲线中,我们绘制了抵达目的最终间隔(Final distance to goal)与环境采样(Environment Samples)量之间的关系图(曲线越低越好)。我们的模仿环境以 20 Hz 的频率控制着机器人,这意味着模仿环境中 1000 个工夫步等价于真实世界中的 50 秒。这种环境的静态模型绝对容易学习,这意味着基于模型的办法将获得优秀的表现。正如预期的那样,基于模型的办法(紫色曲线)拟合得十分快(大约 30000 个工夫步,或许说约 25 分钟)并且效果也十分好。工夫差分模型办法(蓝色曲线)也可以疾速拟合(大约 20000 步或许说约 17 分钟)。无模型的深度确定性战略梯度(DDPG,不采用工夫差分模型)基准最终也处理这一义务,但是它需求更多的训练样本。而工夫差分模型办法可以如此之快地完成拟合的缘由之一是,它的无效性是一种假装的基于模型的办法。

当我们转向运动型义务时,无模型办法的后果看起来好多了,而运动型义务的静态性更强。其中一项运动型义务触及训练一个四足机器人挪动到特定地位。由此发生的工夫差分模型战略(TDM)在下图的左侧做了展现,然后右侧的曲线是绝对应的学习曲线。

UC伯克利 ICLR 论文:论如何教强化学习模型骑自行车去金门大桥?

使用于运动型义务的 TDM 战略

UC伯克利 ICLR 论文:论如何教强化学习模型骑自行车去金门大桥?

学习曲线,TDM 为蓝色(曲线越低越好)

正如我们运用尝试和犯错战略而不是规划战略来学习骑自行车一样,我们希冀无模型办法在这些运动型义务中的表现要比基于模型的办法来的更好。这正是我们在学习曲线中看到的:基于模型的办法在功能上坚持颠簸。虽然无模型的 DDPG 办法学习速度更慢,但最终的功能却优于基于模型的办法。工夫差分模型可以疾速学习(拟合)并取得最佳的功能。在这篇论文中还停止了更多的实验研讨,包括训练一个真实世界中具有 7 自在度的锯木工机器人来找到目的地位。我们鼓舞读者本人去阅读论文!

将来的方向

工夫差分模型为从无模型到基于模型的控制插值提供了一种方式化和适用的算法。但是,将来还有很多任务要做。首先,我们求导时假定环境和战略都是确定性的。而实践上,大少数环境下这些都是随机的。即使它们是确定性的,在理论中采用随机战略也有令人服气的理由(可以参见 这篇博客 ,里边举了一个例子)。然后假如把 TDM 扩展到此设置将有助于完成把 TDM 使用到更真实的环境中去。另外一个想法就是把 TDM 与可选的基于模型的规划优化算法(Alternative model-based planning optimization algorithms)相结合,这个算法我们在本篇论文中运用过。最初,我们希望将 TDM 使用于真实世界的机器人身上去完成更难的应战,比方运动、操作,当然还有骑自行车去金门大桥。

这项任务将在 ICLR 2018 上展现。想要理解更多关于 TDM 的信息,请检查以下链接,也欢送你在温哥华 ICLR 的海报展区中与作者们交流:

  • ArXiv 预印本:《Temporal Difference Models: Model-Free Deep RL for Model-based Control》

  • 开源代码

补充:我们之所以将该办法命名为工夫差分模型是由于,我们运用工夫差分学习(Temporal difference learning)训练 Q,然后将 Q 作为模型运用。

Via TDM: From Model-Free to Model-based Deep Reinforcement Learning ,雷锋网 (大众号:雷锋网) AI 科技评论编译。

UC伯克利 ICLR 论文:论如何教强化学习模型骑自行车去金门大桥?