大众号/AI科技大本营
HAL 9000(来源:ScieNews.com)
译者 | 婉清
编辑 | 阿司匹林
出品 | AI科技大本营(大众号ID:rgznai100)
机器学习是目前计算机范畴最火的技术之一,从电商到自动驾驶,都无机器学习的使用。但是,当群众谈起机器学习时,却往往以 AI(人工智能) 代称,这遭到了很多学者的批判,机器学习宗师级大牛迈克尔 · 乔丹更是直抒己见,称“我厌恶将机器学习称为 AI”。
虽然机器学习目前可以处理的成绩十分无限,但是它的确让我们看到了新一轮科技革新的曙光。但是,关于机器学习的炒作曾经太多,我们需求从不同的角度去审视它,仔细考虑,才干真正了解它。
作为一名风投经理,Andreessen Horowitz 展示了本人的共同视角,提出关系数据库和自动化是协助我们了解机器学习的两个重要概念。Horowitz 以为,洗衣机是自动化机器的一种,但是它没有“智能”,而机器学习也可以看作一种可以完成自动化的技术,人们用它打造的只不过是一台台智能时代的“洗衣机”。
以下内容由AI科技大本营编译:
机器学习进入大众视野曾经有四五年了,简直到达了家喻户晓的境地。不只每天都有各种初创公司涌现,大型科技平台公司也正围绕机器学习停止自我改造:科技行业以外的一切人大都读过《经济学人》或《商业周刊》的封面故事,很多大公司也有一些项目正在停止。我们都晓得,这会是下一个风口。
更进一步,实际上我们大多理解神经网络是什么,它能够与形式和数据有关。机器学习让我们在数据中找到形式或构造,这些形式或构造是隐式和概率性的(因而是“推断”),而不是显式的,这在以前只要人类才干找到,计算机是无法找到的。机器学习处理了这类成绩:那些以前“对计算机而言很难,但对人类来说很容易”的成绩,或许说“对计算机来说很难描绘”的成绩。
不过,我以为我们还没有一个明白的概念,即机器学习对科技公司或更普遍的经济体系中的公司意味着什么,如何在构造上考虑它可以带来什么新事物,或许机器学习对我们一切人意味着什么,以及它实践上可以处理什么重要成绩。
“人工智能”(Artificial Intelligence)一词并没有起到什么协助作用,它只会让讨论停止不下去,或许早早完毕。当我们说起“人工智能”时,就仿佛 2001 年终的黑色巨石(black monolith)呈现了一样,我们都变成了猿类,对着它尖叫,挥舞着拳头。后果就是,我们无法真正剖析“人工智能”。
编者注: black monolith,黑色巨石。源自阿瑟·克拉克(Arthur C. Clarke)的科幻小说《2001:太空奥德赛》(Space Odyssey,又译:《2001:太空遨游》)。书中描绘道,高度智慧的外星生命在地球上留下了一块黑石。在书中黑石代表着远远超越人类触及范围的智慧。
现实上,我可以罗列一长串无助于讨论以后机器学习开展的方式,例如:
- 数据是新的“石油”
- Google 和中国(或 Facebook、Amazon,BAT)拥有一切的数据
- 人工智能将承当一切的任务
- 把机器学习称为人工智能
当然,也有其他更无益的方式:
- 自动化
- 技术赋能层
- 关系数据库
为什么提到关系数据库?由于它是一个新的根底赋能层,改动了计算机所能胜任的事情。在于上世纪 70 年代末关系数据库呈现之前,假如你想让数据库显示你希望的东西,比方“一切已购置此产品且寓居在此城市的客户”,通常需求一个专门的工程项目才干完成。数据库不是用构造化的,因而任何恣意穿插援用查询都非比寻常的困难。数据库是记载保管零碎,而关系数据库则把它们变成了商业智能零碎。
这样一来就极大地改动了数据库的用处,从而创立了新的用例,催生了市值高达数十亿美元的新公司。关系数据库不只为我们带来了 Oracle,也带来了 SAP。而 SAP 和它的同行们给我们带来了全球即时供给链——苹果和星巴克。到了 90 年代,简直一切的企业软件无一例外都是关系数据库:PeopleSoft、CRM 和 SuccessFactors 等数十种软件都是运转在关系数据库之上。没有人指着 SuccessFactors 或 Salesforce 说,“这玩意儿将永远不会起作用,由于 Oracle 拥有一切的数据库”——相反,这项技术成了一个赋能层,它成了一切东西的一局部。
所以,这也是如今我们考虑机器学习的一个很好的方式——它是我们应用计算机所能做的进一步改良,它将成为许多各家公司不同产品的一局部。最终,简直一切的东西都无机器学习在外面,没人关怀,也没人惊奇。
两者之间重要的类似之处在于,虽然关系数据库具有规模效应,但别忘了网络是无限的,或许说“赢家通吃”的效应,机器学习也一样。假如 B 公司和 A 公司一样,从同一家供给商购置相反的数据库软件,那么 A 公司运用的数据库并不会因而变得更好。机器学习实践上也是差不多的状况:机器学习都是数据相关的,但是特定使用的需求的数据却是不同的。更多的手写数据会使手写体辨认器变得更好,而更多的燃气轮机数据也会使零碎更好地预测燃气轮机的毛病,但是其中一套数据对另一个零碎却毫无协助。记住,数据是不可替代的。
这就触及了在议论机器学习时最罕见的曲解的中心:在某种水平上,机器学习是通往 HAL 9000 (编者注: HAL 9000是《2001:太空遨游》中的最具兽性的超级计算机)路途上一种单一的、通用的东西;或许 Google 或微软各自树立了“一个(HAL 9000)”;或许 Google “拥有一切的数据”;或许 IBM 曾经拥有了一个真实的东西(HAL 9000),叫作 Waston。确实,人们在对待自动化时总会犯相反的错误:每一波自动化浪潮,我们夺回想象人们正在发明一些拟人化的东西,或许具有通用智能的玩意。要晓得,这可是有前车之鉴的:在 1920-1930 年代,我们想象的是,钢铁机器人拿着锤子在工厂里走来走去;而在 50 年代,我们想象的是人形机器人在厨房里干家务。但是我们并没有失掉机器仆人,但好在我们有了洗衣机。
你可以说洗衣机就是机器人,但它们没有“智能”。它们并不晓得水和衣服是什么。此外,就算在洗濯范畴中,洗衣机也并不是通用的:你不能把盘子放进洗衣机里,也不能把衣服放进洗碗机里(或许说,你可以这么做,但你不会失掉想要的后果)。它们只是另一种方式的自动化罢了,在概念上,与传送带或送料机并没有什么不同。异样,机器学习让我们得以处理以前计算机无法处理的成绩,但是这些成绩中,每个成绩都需求不同的完成、不同的数据、不同的市场道路以及不同的公司才干处理。这些都是自动化的一局部,你可以把它们看作一台台洗衣机。
因而,我们议论机器学习的应战之一,就是在数学的机械解释与梦想之间找到一个均衡点。机器学习并不会发明出 HAL 9000(至多,这个范畴中很少有人会以为它很快就能完成),但以为它“只是统计数据”关于了解也没有协助。让我们重新审视与关系数据库的类似之处,这能够更像是在 1980 年讨论 SQL 一样:如何从解释表衔接(table join)到考虑 Salesforce.com?假如你说“这可以让你问些新成绩”,这当然是十分好的,但是成绩并不总是明晰明了。你可以制造一些令人印象深入的语音辨认和图像辨认的演示,但是,假如是一家普通的公司会怎样做呢?就像美国一家大型媒体公司的一个团队不久前对我说的那样:“我们晓得,我们可以运用机器学习来索引十年来的运发动采访视频,但是,我们寻觅的终究是什么呢?”
那么,关于真正的公司来说,机器学习的“洗衣机”究竟是什么呢?我以为有两套工具可以用来协助考虑这个成绩。首先是思索数据类型和成绩类型的流程:
那么,关于真正的公司来说,机器学习的“洗衣机”究竟是什么呢?我以为有两套工具可以用来协助考虑这个成绩。首先是思索数据类型和成绩类型的方式:
- 关于拥有相关数据的成绩,机器学习可以提供更好的后果,这仅仅是作为一种剖析或优化技术。
- 机器学习可以让你基于已无数据提出新的成绩。
- 第三,机器学习为剖析范畴开拓了新的数据类型:以前计算机无法真正“读取”音频、图像和视频,而如今这种能够性越来越大了。
在这方面中,我发现最令人兴奋的是影像范畴。以往,只需我们有计算机,就可以处置文本和数字,但图像(和视频)对它们而言,大多都是盲区。如今,它们可以“看到”了,就像它们可以读文本和数字一样。这意味着图像传感器(和麦克风)将成为一个全新的输出机制:与其说是一个“摄像头”,还不如说就是一个全新的、弱小的、灵敏的传感器,它可以生成机器可读的数据流。将来各种各样的成绩,最终都会演化成计算机视觉成绩,虽然明天看上去并不像是计算机视觉方面的成绩。
最近我遇到了一家为汽车行业提供座椅的公司,该公司曾经在廉价的 DSP 芯片上部署了神经网络,并与廉价的智能手机图像传感器相结合,以检测织物能否有起皱的景象(我们应该等待的是,市面将涌现各品种似用处的机器学习的小玩意儿,它们十分玲珑、廉价,只做一件事,就像文章 Why the Future of Machine Learning is Tiny 说的那样)。它实践上就是把以前无法自动化的义务自动化,因而将它描绘为“人工智能”是不利于我们了解的。
这种自动化的概念是考虑机器学习的第二个工具。发现织物上能否存在起皱的景象并不需求 20 年的经历:做到这一点,真的只需求哺乳植物的大脑就够了。现实上,有位同事跟我说,你可以训练狗狗做的事情,机器学习也可以做到,这也是考虑人工智能成见的一个有用处径(狗狗究竟学到了什么?训练数据中有什么?你确定吗?你会怎样问?),但是它也无限制,由于狗狗的确具有普通的智力和知识,并不像我们晓得的任何神经网络。吴恩达表示机器学习在不到一秒内就可以做任何你所能做的事情。议论机器学习的确是在寻觅隐喻,但我更喜欢这个隐喻:机器学习给你的其实是有限数量的实习生,或许有限数量的十岁孩童。
五年前,假如你给一台计算机一堆照片,它所能做的,只是依照片尺寸大小排序。而一个十岁孩童,可以把这堆照片按男人和女人来分组,一个十五岁的少年可以依照“酷”和“不酷”来停止划分照片,一个实习生可以指着某张照片说“这团体真的很风趣”。明天,有了机器学习的加持,计算机的才能将会与十岁孩童或许十五岁少年相仿。但它能够永远不会到达实习生的程度。但是假如你有一百万名十五岁的少年来一同来检查数据,你将会怎样做呢?你会接听什么样的电话,会阅读什么样的图像,会反省哪些文件传输或用信誉卡付款呢?
也就是说,机器学习不用与专家或许数十年的经历或判别相婚配。我们不是自动化专家。相反,我们要求的是:接听一切的电话,找到那些愤恨的人;阅读十万张照片,找到那些看上去很酷(或许至多看上去怪异)的人。
从某种意义上说,这就是自动化一直在做的事情;正如 Excel 并没有给我们带来人工会计师,Photoshop 和 Indesign 也没有给我们带来人工立体设计师,实践上,蒸汽机也没有给我们带来天然马匹。(在晚期的“人工智能”浪潮中,可以对弈国际象棋的计算机并没有给我们带来一个装在盒子里的、性格乖戾的俄国中年人。)相反,我们将一项团圆义务大规模地自动化了。
假如这个隐喻被打破(就像一切的隐喻一样),那么,在某些范畴中,机器学习不只能找到我们曾经可以辨认的东西,而且还能找到人类无法辨认的东西。DeepMind 的 AlphaGo 就是最好的例子。AlphaGo 不会像下国际象棋的计算机那样去下围棋:依照顺序剖析每一种能够的棋步。相反,它被赋予了规则,让它本人尝试制定战略,与本人下棋的次数,要比人类在有生之年所能下的棋还要多。也就是说,这并不是一千名实习生,而是一名十分十分快的实习生。假如你给实习生一千万张照片,他们阅读完会说:“这很风趣,但当我看到第三百万张照片时,这种形式才真正开端呈现。”那么,哪些范畴足够窄又足够深,以致于我们可以通知一个机器学习零碎规则(或许给它一个分数),只需检查一切数据,就能得出人类无法得出的新后果?
我花了很多工夫去理解大公司,讨论他们的技术需求,他们在机器学习方面通常有一些十分分明的、可随便完成的目的。既有很多分明的剖析和优化成绩,也有很多分明的图像辨认成绩或音频剖析成绩。异样,我们讨论自动驾驶汽车和混合理想的独一缘由就是机器学习(能够)让它们可以得以完成。但当我们讨论织物上的起皱状况或客户效劳中心的心情剖析之后,这些公司接上去往往问道:“还有什么呢?”这将带来什么其他的东西吗?它会发现哪些我们不晓得的未知事物呢?
在机器学习变得稀松往常之前,我们能够还有十到十五年的工夫。
原文链接:
https://www.ben-evans.com/benedictevans/2018/06/22/ways-to-think-about-machine-learning-8nefy