农企新闻网

别无视深度学习的种种成绩,Gary Marcus 泼冷水责无旁贷

发布者:高熙明
导读雷锋网(大众号:雷锋网)AI 科技评论按:纽约大学心思学教授 Gary Marcus 曾是 Uber 人工智能实验室的担任人,他本人创建的人工智能创业公司 Geometric Intelligence 2016 年 12 月被 Uber 收买,本人也就参加 Uber 协助他们树立人工智能实验室。Gary Marcus 也曾召唤研讨人员们「借用认知迷信范畴的知识」,更多地构建和人类相似的看法概念。但

别忽视深度学习的种种问题,Gary Marcus 泼冷水义不容辞

雷锋网 (大众号:雷锋网) AI 科技评论按:纽约大学心思学教授 Gary Marcus 曾是 Uber 人工智能实验室的担任人,他本人创建的人工智能创业公司 Geometric Intelligence 2016 年 12 月被 Uber 收买,本人也就参加 Uber 协助他们树立人工智能实验室。Gary Marcus 也曾召唤研讨人员们「借用认知迷信范畴的知识」,更多地构建和人类相似的看法概念。

但是 Gary Marcus 却不是一个令人深受鼓舞的「正面人物」,实践上他曾重复对人工智能和深度学习泼冷水,正告大家我们如今获得的停顿多么微乎其微、人们又有多么过于悲观。

圣诞-除夕长假刚过,Gary Marcus 在 arXiv 上传了一篇论文,对如今炽热的深度学习的现状停止了片面的、而且一点都不悲观的剖析。他在论文中针对如今炽热的深度学习指出了十个成绩,雷锋网 AI 科技评论把这十个成绩复杂引见如下:

一,渴求少量的数据

人类学可以依据明白的规律学习,比方学会一元二次方程的三种方式当前就可以用来解各种标题;也可以从不多的几个样本中迅速学到隐含的规律,见过了京巴、柴犬之后,再见到德牧就晓得它也是一种狗。但是深度学习不是这样的,「越多的数据 = 越好的模型表现」就是深度学习的根本规律,它没有才能从字面上给出的规律学习。

对企业来说,IT 巨头在深度学习时代更容易凭更大的数据量树立起马太效应,第二梯队的竞争者们曾经开端感到担忧。学者们也对此不是很悲观,Geoffrey Hinton 在近期的胶囊论文中也提到「卷积网络在新类别上泛化才能的困难度……要么在网格中复制特征检测器,网格的大小随着维度数目指数增长,要么异样以指数方式添加的标注训练集的大小」。关于可用的数据无限的场所,深度学习往往并不是最佳的选择。

二,学到的知识并不深化而且很难迁移

我们都晓得深度学习的「深」指的是网络的层数深、隐层数目多,而人类喜欢且敬重的对事物运转规律的深入总结则在深度学习中无处可寻。

即使关于需求和环境交互、理应更好地看法到环境规律的强化学习模型,一旦环境发作任何变化,它们也依然需求重新顺应——它们其实没有真的了解「墙」是什么、「通道」是什么。除了 DeepMind 的玩 Atari 游戏的强化学习模型表现出了这样的特点,其它许多研讨者在各自的研讨范畴中也都察看到了细微改动输出数据就会形成输入后果有宏大差异的景象。

深度学习模型学到的数据形式,看起来要比我们以为的弱得多。

三,难以处置层次化的构造

举例来说,对少数深度学习言语模型来说,句子就是一串单词而已,但是在言语学家眼中,句子是有固有的层次构造的;英文长句中的定语从句就是一类经典的例子,异样是构造根本完好的句子,从层次构造角度讲却只是某一个词或许词组的补充阐明。

深度学习关于各种层次化的构造都能干为力。人类可以把「煮米饭」这个目的拆分红「淘米、加水、设火力工夫」几个举措逐一完成,游戏 AI 也有需求找到单个操作和全局战略之间的均衡和协调。但是深度学习是提供不了层次化的了解、总结、控制等等才能的,它自身学到的特征就是「平整」的,或许说是非层次化的,每个特征都只是清单中的一项。所以深度学习零碎本身没有才能表示出层次化构造,尝试用一些技巧提取层次化构造的 Word2Vec 之类的模型就马上可以锋芒毕露。

但是思索到少数义务、少数数据、少数电气零碎都有不言而喻的层次构造(这甚至就是人类构建适用零碎的根本思绪),深度学习在它们之上的表现都还很值得疑心。

四,关于开放性推理成绩心有余而力不足

人类在看过书籍电影之后总能对其中的转机和故事开展提出不同于原作的见地、对作者的暗示提出种种猜测,但是即使是在 SQuAD 问答数据集上表现最好的模型,也只能是在给定的文本中找到最相关的词句然后把它们停止组合而已,完全没有创新和了解暗示的才能。即使曾经有研讨者做出了尝试,目前来说也没有任何深度学习零碎基于真实知识做开放性推理的才能可以和人类相提并论。

五,深度学习仍然不够通明

关于深度学习的「黑箱」神经网络成绩,在过来几年来不断是被普遍关注和讨论的焦点。而在明天,深度学习零碎动辄拥无数以百万甚至十亿计的参数,开发人员难以用可解释的方式 (「last_character_typed」) 对一个复杂的神经网络停止标注 (e.g., the activity value of the ith node in layer j in network module k)。虽然经过可视化工具,我们可以看到复杂网络中的集体节点所发生的奉献,但更多时分研讨者会发现,神经网络仍然是一个黑匣子普通的谜。

这关于我们会发生什么样的影响犹未可知,假如零碎的鲁棒性足够、自顺应性也做得够好,那么可解释与否并不成为成绩。但假如它需求被用在一些更大的零碎上,那么它所具有的可调试性就变得尤为重要。

深度学习的通明性成绩尚未被处理,而关于以金融或是医学诊断为代表的使用范畴,它将是一个绕不过的坑,毕竟,人们需求向机器的决策要一个可解释的答案。就像 Catherine O』Neill (2016) 所指出的那样,深度学习的不通明性将引致成见的系列成绩。

六,深度学习远未与先验知识严密结合

深度学习的一个重要方向在于解释学,行将它与其它的知识区隔开来。典型的深度学习方式往往是寻觅一个数据集,经过调参等各种方式,学习输出输入的关联,并掌握处理成绩的办法。有多数研讨会刻意地弱化先验知识,比方以 LeCun 为代表的神经网络衔接约束等研讨。

而以 Lerer et al 的研讨为例,团队尝试让零碎学习物体从高塔上掉落的物理特性,在这个研讨中,除了卷积隐含内容外,团队没有参加物理学的先验知识。我行将宣布的论文中也提及了这一点,即深度学习研讨者看起来对先验知识成见不小,即使这些知识都是众所周知的。

此外,将先验知识整合到深度学习零碎中也并非易事。次要缘由在于,知识表征次要描绘不是笼统的量化特征,而是特征间的关系;机器学习过于强调零碎的独立性,而把通用性知识扫除在外。以 Kaggle 机器学习竞赛平台为例,所给的数据集、所提出的成绩,都是给定的,虽然在竞赛的范式驱动下,研讨者曾经有了长足的提高,但与真实世界亟待处理的成绩还有着很大差距。

生活并非一场 Kaggle 竞赛。真实世界的数据并不会洗洁净打包好等着你,而成绩也比竞赛所遇到的要复杂得多。在以语音辨认为代表的,有少量标志的成绩上,深度学习能够表现不俗。但假如是开放性的成绩呢?简直没有人晓得要怎样办。被绳子卡住链条的自行车怎样修?我要主修数学还是神经迷信?没无数据集可以通知我如何处理。

与分类离得越远的成绩、与知识靠得越近的成绩,越难被机器学习所处理。而目前据我所知,也没有人尝试过处理这样的成绩。

七,深度学习无法区分因果性与相关性

假如因果性与相关性的确不同,那么两者的区分会是深度学习的一个严峻成绩。复杂地说,深度学习习得的是输出与输入特征间的复杂关系,而非因果性的表征。深度学习零碎可以把人类当作全体,并学习到身高与词汇量(height and vocabulary)的相关性,但并不能理解到长大与开展间(growth and development)的关系。也就是说,孩子随着长大会学到更多单词,但不代表学习更多单词会让孩子长大。因果关系关于 AI 而言是一个中心成绩,但能够由于深度学习的目的并非处理这些成绩,因而深度学习范畴很少涉足这一研讨。

八,深度学习对环境的波动性提出要求,这能够会存在成绩

深度学习目前在高度波动的环境中任务得最好,比方围棋,由于它的规则不变,而一旦遇到政治和经济成绩(这些成绩会不时变化),效果则不尽人意。

在一定水平下去说,深度学习可以使用到诸如股票预测等义务上,但是有很大的能够最终会失掉相似 Google Flu Trends 的后果,虽然一开端的疫情预测表现良好,但却没能提早预知 2013 年的流感高发季。

九,深度学习目前得出来的后果只是近似值,不能彻底置信

从后面提出的成绩中可以看到,深度学习零碎在某些给定范畴的大局部状况下任务得很好,却很容易被捉弄。

越来越多的论文标明深度学习容易遭到攻击,比方下面提到的 Robin Jia 和 Percy Liang 在言语方面的研讨,以及计算机视觉范畴的大规模的案例——将黄黑相间的条纹误以为校车,将带有贴纸的停车标志误以为装满食品的冰箱。最近还有一些理想世界中的例子,比方被细微涂损过的停车标志被深度学习零碎误以为是限速标志,3d 打印的乌龟被误以为是步枪。近期,还有旧事报道了英国警局零碎不能正确区分裸体和沙丘。

深度学习零碎易受诈骗(spoofability)的特性能够是由 Szegedy 等在 2013 年的一篇论文中初次被提出的,四年过来了,经过了如此多的研讨,研讨人员还是没能找到什么鲁棒性的处理办法。

十,深度学习开展到如今还是很难工程化

从下面提到的一切成绩中得出的另一个现实是,用深度学习来做鲁棒性工程很难。谷歌团队宣布的论文 Machine Learning: The High-Interest Credit Card of Technical Debt 中,他们的标题将机器学习描述为「技术债权里高利息的信誉卡」,这标明,零碎在给定了限制的环境下会任务, 但是很难保证在添加了新的数据,并且这些数据与之前的训练数据存在差别的状况下能任务。在 ICML 2015 上,Leon Bottou 将机器学习与飞机引擎的开展作了比照,他表示,飞机的设计依赖于构建复杂的零碎,这可以保证牢靠的功能,但机器学习零碎的缺乏相似的保证。

正如谷歌的 Peter Norvig 在 2016 年所指出的那样,机器学习与传统项目相比,还缺乏增量性(incrementality)、通明性(transparency)和可调试性(debuggability),想要完成机器学习的鲁棒性,这是一项应战。Henderson 和他的同事最近也提出了这一观念,他们专注于深度强化学习,指出了这一范畴在鲁棒性和可复制性方面存在的一些严重成绩。

虽然我们在开发机器学习零碎的进程中曾经获得了一些提高,但还有很长的路要走。


固然,深度学习在计算机视觉、强化学习、NLP 等范畴都优良地处理了不少疑问成绩,但我们在对深度学习抱有热情的同时也该当看到,深度学习并不能处理一切的成绩,它高明的提取特征和非线性笼统的才能也远缺乏以构成通用人工智能的根底架构。雷锋网 AI 科技评论以为,深度学习的研讨当然要继续,它的炽热也为整个机器学习、人工智能界带来了少量关注和人才;但言必深度学习也并不是一个良好的开展情况,我们更希望各种技术和看法办法可以齐头并进,合力构建出人类理想中的「人工智能」。

原论文  https://arxiv.org/abs/1801.00631  中还有更多内容。雷锋网 AI 科技评论节选编译。

雷锋网版权文章,未经受权制止转载。概况见。

别忽视深度学习的种种问题,Gary Marcus 泼冷水义不容辞