农企新闻网

Google AI:如何破解AI学术研讨的赢者诅咒?

发布者:马俊
导读「赢者诅咒」:博得拍卖品的中标者出价高于其他竞标者,但他很能够对拍卖品估价过高,领取了超越其价值的价钱,从而博得的拍卖品的收益会低于正常收益甚至为负。换句话说,就是当你二心想要博得竞标时,却偏离了你本来的目的。雷锋网 AI 科技评论按:当我们为各种测评义务中获得的分数欢天喜地时,能够我们曾经遭到了「赢者诅咒」。机器学习范畴在过来的十年工夫里获得了十分了不起的提高。从机器翻译,到言语了解,到计算机视

「赢者诅咒」:博得拍卖品的中标者出价高于其他竞标者,但他很能够对拍卖品估价过高,领取了超越其价值的价钱,从而博得的拍卖品的收益会低于正常收益甚至为负。换句话说,就是当你二心想要博得竞标时,却偏离了你本来的目的。

雷锋网 AI 科技评论按:当我们为各种测评义务中获得的分数欢天喜地时,能够我们曾经遭到了「赢者诅咒」。

机器学习范畴在过来的十年工夫里获得了十分了不起的提高。从机器翻译,到言语了解,到计算机视觉,到自动驾驶,到 AlphaGo,到电子游戏(例如 DOTA)等等。

这一系列的疾速提高面前最大的推力能够就是,学术研讨范畴越来越强调所谓的「win」文明:新宣布的办法必需在某个给定的义务或基线上超越之前别的办法。这意味着我们曾经把学术社区逐步变成了一个有着明白断定胜负的场地。

反思一下, 迷信的目的不是为了成功,而是为了知识。

因而,当我们不时在各种测评中获得越来越高的分数时,或许是时分该警觉了:我们曾经遭到「赢者诅咒」。

雷锋网 (大众号:雷锋网) 留意到,近期来自 Google AI 的 D. Sculley, Jasper Snoek, Ali Rahimi, Alex Wiltschko 在 OpenReview.net 上提交的一篇文章《 Winner's Curse? on Pace, Progress, and Empirical Rigor 》[1] 给我们明白指出了这点,作者以为实证严谨(empirical rigor)关于如今的 AI 学术社区变得越来越重要,他们针对以后的成绩给出了一些颇具反动性的建议。

Google AI:如何破解AI学术研究的赢者诅咒?

[1]雷锋网注:这篇文章是提交给ICLR 2018的workshop track的。

最近一年的重点案例研讨

假如回忆一下过来一年的论文,就会发现一个分明的趋向(许多研讨组从不同的角度做出了相反的发现):由于以后疾速开展的研讨任务大多只是复杂的调整参数或许停止融化研讨(ablation studies)[2],我们错过了许多能够的改良或深度的见地。上面是过来一年中几个研讨组的一些发现:

[2] 注:融化研讨,通常是指去除模型或算法的某些“特征”,并检查这会如何影响功能。例如你提出了某个构造,若想确定这个构造能否有利于最终的效果,就要将去掉该构造的网络与加上该构造的网络所失掉的后果停止比照。

  • Lucic et al.(2017) 对 GAN 的近期创新任务停止了大规模实证比拟。一个次要发现是,最近的大少数办法经过足够的超参优化后都可以到达类似的分数。

  • Henderson et al.(2017) 标明,他们只需求对基线 LSTM 停止更好的超参调整,就可以超越一系列最新的 seq2seq 学习办法的表现,在比拟抢手的 Penn Treebank 数据集上取得最优的功能。

  • Vaswani et al. (2017) 极好地停止了运用 attention 的共同编-解码器作风网络(exotic encoder-decoder style networks)的融化研讨,它标明只需求加上 attention 模块,你就能取得更好的表现。

  • Rikelme et al. (2018) 对贝叶斯深度神经网络中运用近似推理停止决策的各种近期的办法停止了比拟。他们发现,在决策义务中许多最近提出的办法都只是在努力逾越基线。

  • Henderson et al. (2017) 评价了深度强化学习的可反复性,他们发现近期的任务在同一个义务的不同的基线上模型会有明显的变异。

以上这几例研讨阐明了一个成绩,即假如这些范畴采用更高程度的实证严谨,那么那些看似在疾速开展的研讨能够要比它看起来的样子慢得多。

诱因和现状

从目前的状况来看,诱使机器学习研讨急剧增长的缘由能够有以下几点:

  • 地下可用的数据集增多,例如 Kaggle 上如今曾经拥有了超越 10000 个公共数据集。

  • 计算的本钱降低,并且伴有少量如云计算这样的大型计算资源;

  • 在该范畴任务的研讨人员数量剧增,这为大规模协作发明了时机;

  • TensorFlow、PyTorch 等开源 ML 平台的衰亡,以及由此带来的开源代码和模型的普及。

这些要素能否真的能给 ML 的研讨带来真正有用的后果,能够需求历史来通知我们了。从外表上看,这些要素原本应该促进愈加强壮的实证任务的,但实践状况却朝着相反的方向走去。

  • 理想状况下,处置真实数据的目的是为了调整和反省算法在各种抽样散布下的行为,以便理解算法的优缺陷。但如今实证研讨曾经变成了一个地道为了「win」(而不是为了深化研讨和了解)而停止的应战赛。

  • 计算的价钱虽然在不时的降低,但也是绝对的。大型的研讨组(通常是企业)能够拥有更多的资源,而团体研讨者能够就会遭到比拟大的压力。

  • 随着这个范畴的参与者数量逐年增长,顶会的承受率却根本上坚持不变;此外培育优秀的审稿人通常需求数年工夫,纯熟的审稿人数量增久远远落后于投稿人的数量增长。而另一方面宣布论文又关系着事业前景,于是就会有越来越多的研讨人员惧怕被竞争对手丢弃,并希望可以迅速地在某个范畴竖立旗帜。这种竞争所带来的恐惧感能够会抑制研讨人员去花工夫停止细致地实证剖析。

  • 当许多研讨人员在某一成绩或相关成绩中并行任务时,即便每团体都在尽力防止,但这个范畴也会呈现多种假定检验的成绩。

变革建议

久病难医,Ali Rahimi 等人在文中表示:「我们提出几条建议,抛砖引玉,希望当前大家当前多多讨论。」

实证评价规范     在目前的做法上,以下规范该当被鼓舞、奖励,并最终成为实证任务中的要求:

  • 调优办法 应该经过网格搜索或引导优化办法对包括基线在内的一切模型停止关键超参调优,这该当作为出版物的一局部停止分享。

  • 切片剖析 在整个测试集上停止准确度或 AUC 等功能的测量能够会掩盖其他重要后果,例如在一个区域的质量较高,而在另外一个区域的质量则较低。依据数据的不同维度或类别来分解评测目标,这是完好的实证剖析的关键局部。

  • 融化研讨 研讨中应包括对以前基线的一切变化停止片面的融化研讨,对每个组分的变化停止独自测试和组合测试。

  • 完好性反省和反现实 对模型行为的解释应无意识地停止完好性反省,例如对测试散布之外的反现实数据或失常数据停止剖析。模型对具有不同背景的图像或具有不同人口统计散布的用户的数据的表现有多好?

  • 至多一个负例 由于「没有收费的午餐」实际依然无效,研讨人员去发现和报告新办法相比旧办法表现不好的区域十分重要。 只展现成功的论文该当被质疑,甚至能够因而而回绝接纳。

共享实验笔记和记载     ML 研讨人员大多不会像物理等范畴那样把一切的后果记载上去。但作者建议研讨人员将有关论文研讨时期停止的一切实验的细节和工夫都保管在电子文档中,这有助于追踪研讨的发现、探究和结论的全进程;同时它也可以抵消多重假定检验和预先解释的成绩。

改动论文格式     在一个以创新而著称的范畴,我们的次要档案传达媒介依然以优化纸张印刷为目的,这真实令人诧异。让我们改动这种纸张格式吧!像 iPython 和 Colaboratory 1 这样的智能笔记本,不只可以包括代码、数据,还可以包括文字的剖析,我们为什么不采用这些来作为一流的出版媒介。

会议中论文页面往往限制了作者展现更完好的实证剖析的才能,或许需求破费很多页面才干完成。假如不再让纸张印刷格式限制我们,那么关于评审员来说就可以检查更丰厚的内容。为了防止众多运用这种自在格式,要求对每个实证后果的额定页面停止一次额定的审查以及适当的审查规范质量要求。

协作和奉献分配     要完成愈加完好的实证评价和剖析,普通需求少量的任务,能够更多的是一大组协作者共同完成。在目前的这种经过作者先后顺序来评定每团体做出奉献的大小显然是不够的。因而建议在每篇论文中有一个附录,扼要概述每位作者的奉献,作为鼓励这种协作的处理方案之一。

评审和评审人员规范     评审质量是进步一个范畴实证严谨性的关键要素。因而对于互联网金融P2P企业来说,支付市场完善的标准和管理系统将彻底改变互联网金融行业的格局,不仅给从业者提供了的巨大的发展机遇,也带来了全新的挑战。建议经过为评审人员创立更好的工具来协助他们以及范畴主席来执行更高要求的评审规范,例如可以直接在文本中添加正文,创立更完好的评审评论。另外还可以为那些由于资金充足不能参与会议的优秀的评审员提供收费注册作为奖励。

场地选择     目前会谈论文的接纳率通常与会议场馆的实践大小有关。因而建议经过其他媒介(包括视频和视频会议)来停止更具发明性的任务,这样就可以更为灵敏地为那些不是为了「wins」而是专注于其他成绩(例如深度元剖析)的论文提供了接纳时机。

后  记

参与过 NIPS 2017 的人应该都明晰地记妥当时摩肩接踵的壮观。Ali Rahimi 事先在 NIPS 演讲中将这称为「large waves」。也许我们真的需求坐上去仔细地讨论这些成绩了。

可以想见,假如Ali Rahimi等人提出的这套建议真的得以执行,很多 ML 文章都会被回绝,意味着很多人发不了 papers,毕不了业,找不到任务。但是,人工智能范畴的生长或许真的需求勇士断腕了,当然最好是少流一点血。

Google AI:如何破解AI学术研究的赢者诅咒?