雷锋网 AI 科技评论按:本文由来自 Facebook 人工智能研讨院的研讨员 Dhruv Batra 和 Devi Parikh 共同撰写,文中引见了 Facebook 关于自主智能体的最新研讨效果——目的驱动自主学习,并且还宣布了开源 EmbodiedQA 和 House3D 数据集,雷锋网 AI 科技评论依据原文停止了编译。
大少数可以与人类停止互动的自主智能体(Autonomous agents)都存在一些共同点:它们并不是那么自给自足(Self-sufficient)。例如,一个智能音箱(Smart speaker)虽然可以经过语音接口与人类停止交流并采取一些举措(比方订购产品),但是它却无法感知四周环境。而另一方面,割草机器随着流量往智能终端设备迁移,新的机遇“物联网商业社交时代”也将迎来,通过人的第六器官(智能手机)和智能设备终端的联网互动,从而改变了人的行为习惯和消费方式。线下流量通过LBS定位重新分配,又通过物联网终端智能推荐引擎引导到网上任意有价值的地方,至此互联网下半场拉开帷幕。人虽然具有举措(割草)和感知(经过传感器)才能,但是它除了不时闪烁灯光或许发送错误信息以外,还无法完成与主人的自在交流。
假如不同时具有三个重要的关键要素—— 感知、沟通和举措 ,那么自主智能体就无法成为一个片面的助理,而这其中的空白代沟还需求人类参与出去补偿。但是这个成绩关于目前的智能体来说似乎并不是什么大缺点,例如,Roomba 机器人假如疏忽了告诉你有把椅子障碍了它的清洁道路,这只是一点小困难而不是什么大灾难。但是为了让下一代智能体能融入并改动我们的生活,那么自主零碎还需求变得愈加自给自足。
训练人工智能零碎时要扔下婴儿车
为了给那些对人类微观管理依赖水平较低且更具通用性的零碎铺平路途,Facebook 人工智能研讨院(FAIR)开发了一系列用于训练和测试自主智能体的虚拟环境,以及可以学习智能探究那些环境的新型智能体。这些智能体将被用来作为模仿机器人而运用,它们是 Facebook 与佐治亚理工学院的研讨员协作创立的。运用虚拟智能体和虚拟环境比起将真实的机器人送到现有的室内场所要来得高效得多,由于这需求破费数千台机器来婚配基于 AI 训练的运转速度。Facebook F8 会议上关于经过 AI 进步内容的可拜访性的主题演讲中复杂引见过这项任务。
FAIR 的目的是 指点零碎依据临时方案采取多种举措,同时还要努力完成所给定的义务 。为了获得成功,这些智能体必需在它们的环境中举动,综合运用感知、导航和沟通的才能去寻觅出给定成绩的答案,然后运用复杂自然的言语转达这些答案。关于 AI 来说,这是一个极具应战性的成绩,假如一旦完成就是朝着自治程度迈出了一步,并且该智能体的顺应性也将足以在非构造化的天然世界中发扬作用。
为了测试这种目的导向(Goal-driven)的办法,FAIR 和佐治亚理工学院结合提出了一个多步骤 AI 义务,称为「详细化问答(Embodied Question Answering)」或许「EmbodiedQA」。与聊天机器人或许智能音箱相比,此智能体必需在物理环境(虽然是虚拟环境)中去学习和运转,因而称为「详细化的(Embodied)」。当智能体被问及单一成绩时,例如「车子是什么颜色的?」或「我的钥匙落在了哪个房间里?」,智能体必需可以了解口语言,然后用第一人称相机去感知四周环境,探究 3D 的室内环境直到找到答案。并且为了使得智能体的自主性愈加完善,它还将经过自然言语的方式回复该答案以完成本人的使命。
FAIR 提出了一项新的 AI 义务——详细化问答(Embodied Question Answering)。上图中在一个 3D 环境中的某个随机地位发生一个智能体,并给出一个成绩(车是什么颜色的?)。为了答复这个成绩,智能体必需借助智能导航以探究环境,经过第一人称(以自我为中心)的视觉搜集信息,然后答复成绩(橙色)。
FAIR 置信这些是第一个要求 AI 零碎综合展现感知、交流和举措以达成目的的实验。将完全自主(智能体在没有人类引导和干涉的状况下完成了自主活动)和不熟习的环境结合起来添加了整个义务的应战性。智能体要在随机的、数以百计的不同楼层立体图(每个立体都是仿照理想家庭停止建模)中运转,而且不具有在该环境中理论运转过所带来的增益,也不曾在相似的地图上运转过。更难的是,为了答复提出的成绩,智能体必需挪动,由于成绩中的对象也许无法立刻看到。
在任务中学习
为了训练和评价这些智能体,所需的虚拟环境不只仅要具有交互功用,还要具有多样化和数量充足的特性,以防止智能体在相反环境中重复运转,这对自主智能体的开展而言是一个愈加宏大的应战。FAIR 的处理方案称为 House3D,它是由 45000 个手动创立的模仿室内环境所组成的。House3D 是基于普林斯顿大学的 SUNCG 数据集而创立的,但是 House3D 作为一个完全可导航的地位集合(Fully navigable set of locations),使得智能体可以同时探究数千个房间,这比起在理想生活空间中训练具有复杂机械构造的机器人要来得快得多。它也使得我们可以停止可反复性的迷信实验。并且 House3D 还停止了开源,目前 可以在 GitHub 上获取 。
为了在 House3D 中每次都能停止共同的寻宝活动,智能体必需在完成义务的进程中学习一系列中心才能——从对室内物体的辨认(沙发、椅子等)到对成绩的言语了解。
第一种习得的才能是自动感知(Active perception),或许是智能控制后面像素的才能,由于一开端目的对象不太能够会刚好位于智能体的视野范围内(图像经过一个 224x224 分辨率的 RGB 模仿摄像头采集)。因而,智能体不是主动地感知成绩中提及的对象(固定图像数据集中就是如此),而是经过探究四周环境自动将目的对象寻觅出来。
这项研讨的一个创新点在于完成了导航的模块化办法,该办法将导航义务划分红了两个局部。规划者(Planner)担任选择挪动的方向,例如向左挪动,而控制器(Controller)则担任确定在该方向需求挪动多远。这种战略防止了智能体在挪动前需求去创立久远而又详细的途径规划,由于这么干会招致更多的错误和更弱的顺应性。此外规划者-控制器(Planner-Controller)这套设置也更合适于强化学习,在这里智能体将依据积极或许消极的反应来静态调整其导航。
FAIR 的智能体将导航义务分解为一个规划者(PLNR)模块和一个控制器(CTRL)模块。规划者从卷积神经网络(CNN)取得输出,然后决议所采取的举措。同时控制器将决议持续执行该举措的工夫步变量——从而完成方向和速度之间的解耦合。这使得规划者可以在更短的工夫内停止更无效的操作,从而加重了训练难度。
下一步,智能体必需学会知识推理,然后在一个新的但是却并非完全生疏的环境中去发扬作用。虽然人们能够晓得车库往往位于房屋的四周,因而可以经过内部门进入,但是 AI 零碎却需求本人去学习这些知识。随着在不同的模仿家庭中成功到达目的,智能体必需开展出这种知识,以延长寻觅指定对象然后答复相关成绩所破费的工夫。
作为知识积聚的后续阶段,智能体还要学习言语根底,或许是学习如何把单词(比方针对对象的描绘)与特定的举措联络起来。例如,当为了找到能够位于车库中的汽车而搜索车库时,智能体不会自愿检查每个能够的空间,直到它找到与车库对应的一组像素为止。恰恰相反,智能体运用「车库」作为一个举动的指令,然后直接去找到内部门,从而愈加高效地定位它的目的。
最初,由于 FAIR 的目的是逾越繁琐的、逐渐的人为监视,从微弱和远期的目的驱动奖励中学习,所以智能体必需学会的最重要的才能之一是「功绩分配(Credit assignment)」,这意味着智能体可以晓得本人一路上所做的行为哪些是正确的而哪些又是错误的。例如,假如讯问「多少个房间里有椅子?」,然后智能体并没有被明白告知需求反省每一个房间,甚至没有原告知要从家中含有椅子的区域开端计算。智能体可以凭仗本人的力气去探究和答复成绩,而不需求借助人类提供的详细的逐渐方案。因而,从它能否正确答复的一个微弱信号来看,它必需自行学习其数百项互相依赖的举动中是哪一项招致了成功。为了加强传统的强化学习,FAIR 运用模拟学习(Imitation learning,比拟智能体的运动与抵达目的的能够最短途径)和奖励塑造(Reward shaping,经过「变得更近」和「变得更远」信号随工夫变化而改良智能体的表现)来允许智能体把它真正使命拼凑起来,即使该使命在开端时并不明晰。
让自主零碎愈加自主
经过训练的 EmbodiedQA 智能体与规范序列模型基准(一个 LSTM 导航器)相比,表现的相当合理。
该视频比拟了 FAIR 开发的智能体(称号为 ACT+Q-RL)与基准的功能表现(称号为 LSTM+Q)。视频地址 https://youtu.be/gVj-TelJfrk
和 House3D 一样,FAIR 搜集的 EmbodiedQA 数据将停止开源,并且旨在启示更普遍的 AI 研讨社区内的其它项目。为了给其他研讨人员提供完好的背景,FAIR 将人类带入了这个方程式中。FAIR 和佐治亚理工学院将自主智能体导航与问答的才能与近程遥控智能体停止了比照,这些近程遥控智能体由人类(经过亚马逊的 Mechanical Turk 平台)停止操控,从而树立了专家级别的基准导航示例。由此发生的数据集包括,与 750 个共同的、多房间的环境相关的分解发生成绩(Synthetically generated questions)。智能体(和人类)精确性的毛病以及我们运用的问答生成引擎也将成为 EQA v1 开源版本中的一局部,该版本在不久的未来可以获取到。
虽然 EmbodiedQA 是只涵盖了一种目的驱动的自主义务,但是它却代表了人工智能的高难度(由于它将各种各样的子义务兼并成了一个义务),并且无机会探究采取「举动」的新学习范式,这是成功的先决条件。无法做出决策的智能体——在这种状况下,经过在理想家庭中导航,确定它们搜集到了相关的数据,然后传达它们发现的内容——这种智能体在我们的实验中是无法完成义务的。
这种应战是艰难的,由于它至关重要。在短期内,目的驱动的算法可以运用自动化来改善 AR 和 VR 的体验,为可用的接口选项添加直观的语音交互。但这种基于行为的目的驱动办法的临时影响能够会延伸到自主性上。从数字助理可以依据单一命令(例如,不只可以预定医生,还可以重新布置抵触的会议)执行一系列家务事,到灾难呼应机器人遵照来自第一呼应者的复杂语音命令,这种顺应性的自动化能够会对我们的生活发生严重影响。
Via Facebook AI Research Blog ,雷锋网 (大众号:雷锋网) AI 科技评论编译
。