美国外地工夫 2 月 3 日,AAAI 2018 在第一天的预热之后逐步繁华了起来。雷锋网 AI 科技评论在前瞻报道中提到过,本次大会将会有 15 个 Workshop 陆续停止,其中《非对称信息博弈的 AI( AI for Imperfect-Information Games)》就是其中一个。这一 workshop 的组织者包括 CMU 的 Noam Brown, DeepMind 的 Marc Lanctot 还有 南加州大学博士生、曾获谷歌 PhD 奖研金的徐海峰 。
就像 AlphaGo 让大家愈加熟知深度学习,大家对非对称信息博弈开端理解并熟习,很大水平也是由于 2017 年终,CMU 计算机系在读博士生 Noam Brown 和计算机系教授 Tuomas Sandholm 结合研发的 Libratus 在单挑有限注德州扑克( heads-up no-limit hold’em)人机对战中完胜人类选手。在去年的 NIPS 2017 上,最佳论文正是由他俩的协作论文《Safe and Nested Subgame Solving for Imperfect-Information Games》所摘得。 雷锋字幕组也曾对这一论文解读视频停止独家编译。
正像 Noam Brown 和 Tuomas Sandholm 在 Reddit 上所表达的那样:深度学习远非人工智能的全部 ,非对称信息博弈也与 AI 联络得越发严密。「非对称信息博弈」常被用来模仿触及隐藏信息的各种战略交互(例如会谈,拍卖等)和平安交互中。由于隐藏信息的存在,处理这些事情需求的办法与传统的对称信息(比方国际象棋或棋类游戏)完全不同。虽然在一些研讨「非对称信息模仿」的范畴获得了相当大的停顿,但是每个范畴所运用的技术虽然具有普遍性,却依然绝对孤立。它们之间存在充沛的跨学科交流的时机,让研讨人员们会经过曾经在一个范畴中盛行的办法的新使用、或运用树立在不同范畴中已无方法来创立新的技术。
本场 Workshop 的次要话题简直包括了「非对称信息博弈的 AI」相关的大局部内容,包括早先用于 AAAI 年度计算机扑克竞赛(ACPC),用于处理大型不完满信息游戏的可伸缩算法,游戏中的对手建模和开发,普通和多于两个的算法建模和剖析信息非对称在游戏中的作用,战略信号(又名压服),在不完好信息的战略环境中停止探究与开发,以及一些与非对称信息博弈有关的其他主题的研讨。
研讨者们将分享他们在研讨 AI 在非对称信息博弈中的实际和理论方面以后的研讨效果,也提出有关如何改善相关范畴算法的设想,推进该范畴的 AI 研讨。
这场 Workshop 继续了一整天,原方案是早上 9:30 收场,下午 5:00 完毕,有 8 个演讲者对他们的研讨效果停止分享,每人限时半小时,以下是原定议程:
但由于第一位演讲者未到现场,所以第一个主题《Dynamic Adaptation and Opponent Exploitation in Computer Poker》取消,活动推延到 10 点,并将第二个主题作为收场,并且其中一些主题也做了相应的调整。
1
收场的论文是由 CMU 的 Christian Kroer 带来的,标题为《普遍方式博弈中 Stackelberg 平衡的鲁棒性及无限前瞻的扩展(Robust Stackelberg Equilibria in Extensive-Form Games and Extension to Limited Lookahead)》 ,而作者也包括了 Gabriele Farina 和 Tuomas Sandholm。后者与本次议程的掌管人 Noam Brown 所研发的 Libratus 在 2017 年终打败了人类选手,他也被誉为德州AI之父。
作为计算博弈论中的一个处理方案概念,Stackelberg 平衡曾经变得越来越重要,这在很大水平上遭到诸如平安设置等实践成绩的启示。但是在理论中,关于对手的模型通常具有不确定型。据作者引见,这篇论文是首个在普遍方式博弈中停止不确定条件下的 Stackelberg 平衡的研讨。
Christian Kroer 的团队引入了鲁棒性较高的 Stackelberg 平衡,其中不确定性是关于对手的收益,以及对手有无限前瞻性和关于对手的节点评价函数的不确定。他们为确定性限制前瞻设置开发了一个新的混合整数顺序。然后,零碎把这个顺序扩展到有限制下的 Stackelberg 平衡的鲁棒设置,并且依然位于对手无限的前瞻范围内。
该论文证明了关于对手的收益区间不确定性的详细状况(或许在无限的前瞻的状况下关于对手的节点评价),可以用一个混合整数顺序来计算 Stackelberg 均衡的鲁棒性,该顺序的渐近大小与确定性设置相反。
2
第二篇论文是由哈佛大学的刘洋带来的《树立高质量信息的强化学习框架(A Reinforcement Learning framework for Eliciting High Quality Information)》。
对等预测是一类机制,当没有验证奉献的根底现实时,它有助于从 strategic human agents 中取得高质量的信息。虽然它的设计看似完善,但是在理论中常常失败,次要是由于两个缺陷:(1) agents 对提供高质量信息的努力的动机被以为是已知的; (2) agents 被建模为完全感性的。
在这篇论文中,作者们提出了第一个强化学习(RL)框架,在这个范畴,增强对等预测,来处理这两个限制。在论文中提到的框架中,研讨人员为数据恳求者开发了一个RL算法,用于数据恳求者静态调整缩放级别以最大化其支出,并运用对等预测评分函数分配任务人员。实验显示,在不同的形式下,数据恳求者的支出显着进步。
3
第三篇论文是由密歇根大学的 Mason Wright 带来的《在延续双标拍卖中评价非自顺应买卖的波动性:一种强化学习办法( evaluating the Stability of Non-Adaptive Trading in Continuous Double Auctions: A Reinforcement Learning Approach)》。
该论文是在本次 AAAI 2018 大会上初次地下, 此前 Mason 和他的团队曾在 2017 年宣布过关于非对称性信息博弈在延续双标拍卖中的研讨效果,在本次的论文中,次要针对新的强化学习办法停止论述,由于本篇论文还未正式放出,雷锋网 (大众号:雷锋网) AI 科技评论将在后续的报道中对该篇论文的演讲 PPT 停止详细报道。
4
第四篇是由 Facebook AI Research 的研讨工程师 Adam Lerer 主讲的《在社会窘境中后果主义的条件协作的非对称博弈(Consequentialist Conditional Cooperation in Social Dilemmas with Imperfect Information)》
在社会窘境中,协作可以带来高报答,但参与者面临诈骗的动机,且这一状况在多主体的互动中无处不在。我们希望与地道的协作同伴停止协作,并防止背叛者的剥削;此外,我们还需求鼓舞其他的协作。但是,通常协作同伴采取的举动(局部)未能被察看到,或许团体行为的结果很难预测。这篇论文中证明,在一个大型的活动中,好的战略可以经过调整一团体的行为来树立一个奖励机制,这被称之为后果主义的条件协作。在论文中,Adam Lerer 展现了如何运用深度强化学习技术来构建这样的战略,并经过剖析和实验证明,它们在复杂的矩阵游戏之外的社会窘境中是无效的,此外,论文还阐明了单纯依赖结果的局限性,并讨论了对举动的结果意图的了解的必要性。
5
第五个演讲内容是圣路易斯华盛顿大学 Samuel Ang等人的课题《使用于平安范畴的博弈论目的辨认模型Game-theoretic Goal-Recognition Models with Applications to Security Domains》。
在人工智能规划范畴的目的辨认 (GR) 和目的辨认设计 (GRD) 成绩的驱动下,论文辨别引见和研讨了战略代理的 GR 和 GRD 成绩的两种自然变体。更详细地说,就是思索了游戏实际 (GT) 的场景,其中一个歹意对手的目的是在一个 (物理或虚拟) 环境中对一个进攻者监视的目的停止毁坏。朋友必需采取一系列举动以攻击预定目的。在 GTGR 和 GTGRD 设置中,进攻者试图辨认对手的预定目的,同时察看对手的可用举措,这样他/她就可以增强目的进攻攻击。此外,在 GTGRD 设置中,进攻者可以改动环境 (例如,添加路障),以便更好地域分对手的目的/目的。
在论文中,研讨人员建议将 GTGR 和 GTGRD 设置为零和随机游戏,其信息不对称与对手的预定目的有关。游戏是在图形上播放的,顶点代表形态,边缘是对手的举措。关于 GTGR 设置,假如进攻者只局限于只玩固定的战略,那么计算最优战略的成绩 (关于进攻者和对手) 都可以被制定并以一个线性顺序来表示。关于 GTGRD 设置,在游戏开端时,进攻者可以选择 K 条边来阻止,研讨人员将计算最优战略的成绩作为混合整数规划,并提出一种基于 LP 二元性和贪心算法的启示式算法。实验标明,这一研讨的启示式算法具有良好的功能。与混合整数规划办法相比,它具有更好的可扩展性。
目前研讨中,现有的任务,尤其是 GRD 成绩,简直完选集中在决策实际范式上,即对手在没有思索到他们能够被察看的状况下选择本人的行为。由于这种假定在 GT 场景中是不理想的,所以该篇论文提出的模型和算法填补了文献中的一个空白。
6
第六篇论文是来自南加州大学的 Sara McCarthy 带来的《在游戏中坚持抢先:用于要挟挑选的资源静态分配的自顺应鲁棒性优化(Staying Ahead of the Game: Adaptive Robust Optimization for Dynamic Allocation of Threat Screening Resources)》
Sara McCarthy 的研讨思索在安检地点(例如,在机场或港口)静态分配不同效率的挑选资源(例如X光机等),以成功地防止一名被筛查者的攻击。在此之前,研讨人员引入了要挟挑选博弈模型来处理这个成绩,虽然实际上能假定屏幕抵达工夫是完全已知的,但实践上,抵达工夫是不确定的,这严重障碍了该办法的完成和功能。
因而,研讨者们提出了一种新的要挟挑选资源静态分配框架,明白阐明了挑选抵达工夫的不确定性。研讨者将成绩建模为一个多阶段鲁棒优化成绩,并提出了一个运用紧凑线性决策规则和鲁棒重构和约束随机化相结合的处理方案。在停止了少量的数值实验后,这些实验标明,这种办法在处置性方面胜过(a)准确的处理办法,同时在最优性方面只发生很小的损失,(b)办法疏忽了可行性和最优性方面的不确定性。
7
最初一篇论文来自卡内基梅隆大学的于澜涛,主题为《基于网络信息绿色平安游戏的深度强化学习(Deep Reinforcement Learning for Green Security Game with O新生的改变世界的企业将会诞生,从而更好的服务整个人类世界,走向更高科技的智能化生活。nline Information)》。
出于维护濒危野生植物免受偷猎和避免合法采伐等绿色平安范畴的迫切需求,研讨人员提出了博弈论模型,以优化执法机构的巡查。虽然有了这些努力,在线信息和在线互动(例如,巡查者追踪偷猎者的脚印)在之前的游戏模型和处理方案中被疏忽了。这篇论文的研讨旨在经过将平安游戏与深度强化学习相结合,为复杂的理想世界绿色平安成绩提供更实在可行的处理方案。详细来说,研讨者提出了一种新颖的游戏模型,它交融了在线信息的重要元素,并对能够的处理方案停止了讨论,并提出了基于深度强化学习的将来研讨方向。
小结
以上就是 AAAI 第二天「人工智能非对称信息博弈」专场 workshop 的全部内容摘要,接上去,雷锋网 AI 科技评论会对全部 7 篇论文的 PPT 和演讲内容停止精编整理,逐渐放出。
接上去 AAAI 的议程会愈加精彩,今天雷锋网将持续在现场为大家报道精彩盛况。
。