农企新闻网

关于机器学习,你所晓得的,能够都是错的

发布者:刘楠
导读雷锋网按,虽然机器学习曾经成为一个高频名词,但是关于群众而言,它仍然是一个高不可攀乃至模糊不清的概念。为此,著名投资人 Benedict Evans 在本人的博客上宣布博文,针对这一成绩表达了本人的看法;雷锋网(大众号:雷锋网)对这篇博文停止了不改动原意的编译。机器学习的风潮曾经刮了四五年了,除了以 AI 为名如雨后春笋般疾速崛起的新创公司们,各家科技巨头也希望围绕这个时兴词“重塑金身”。此外,经

雷锋网按,虽然机器学习曾经成为一个高频名词,但是关于群众而言,它仍然是一个高不可攀乃至模糊不清的概念。为此,著名投资人 Benedict Evans 在本人的博客上宣布博文,针对这一成绩表达了本人的看法;雷锋网 (大众号:雷锋网) 对这篇博文停止了不改动原意的编译。

机器学习的风潮曾经刮了四五年了,除了以 AI 为名如雨后春笋般疾速崛起的新创公司们,各家科技巨头也希望围绕这个时兴词“重塑金身”。此外,经过媒体的大肆宣传,机器学习也曾经成了一个众所周知的名词。总之,机器学习将成为下一个能帮“猪”降落的风口曾经是大家的共识。

在正式开端之前,我们先说说人工智能(AI),机器学习,神经网络和深度学习四者的关联。复杂来说,人工智能的范围最大,机器学习包括在内,它是带来人工智能的办法。至于神经网络,则是机器学习众多算法中的一类,而深度学习则是完成机器学习的技术,是它的一种延伸。

经过这么多年的知识普及,恐怕了解(实际上)神经网络是什么的人曾经相当多,至多大家都晓得它与范式和数据有关。机器学习让我们能在数据中找到那些暗示性和随机性的范式或构造,而在此之前能找到这些隐含属性的只要人类,由于我们会推理。

有了机器学习,那些本来对人类来说相当复杂(或许说无法向计算机描绘的成绩)但却能难倒计算机的成绩就迎刃而解了,各路公司也都拿出了相当炫酷的演示。

不过,笔者仍然以为,关于机器学习的定义,整个行业仍然没有一个固定的了解,一切都还未尘埃落定。关于科技公司或全体经济来说它究竟意味着什么?机器学习究竟能处理什么重要成绩?它关于普罗群众又意味着什么?如何从构造上了解它的影响呢?

这时有人会抬出 AI 这个术语,不过它其实一个成绩都答复不了,它就像《2001 太空遨游》中提到的黑色巨石(代表未解之谜),在它面前我们都是挥舞着拳头呼啸的猩猩,想解构 AI 简直是不能够完成的义务。

关于机器学习,你所知道的,可能都是错的

现实上,我觉得如今大家能提出一大串无用的办法来讨论机器学习的开展水平。举例来说:

  • 1. 数据是新的石油

  • 2. 谷歌和中国包揽了一切数据

  • 3. AI 将抢走一切任务

  • 4. 只议论 AI

也许,我们能找个更多有用的角度,比方:

  • 1. 自动化

  • 2. 为技术层赋能

  • 3. 关系数据库

为什么要提到关系数据库呢?由于它们是新的根底赋能层,可以扩展计算机的才能范围。在关系数据库呈现之前(上世纪 70 年代末),假如你想让数据库通知你“住在这座城市里的人谁买了这件商品”,就必需专门搞个定制版的工程项目。也就是说,事先的数据库树立时没有构造,因而想完成恣意的穿插援用查询可是个难事。假如你想问个成绩,就得有人围绕这个成绩下大功夫任务一番。事先的数据库只是一套记载零碎,但关系数据库的呈现让它们退化成了商业智能零碎。

这样的改动也让数据库的重要性陡然添加,新的用例随同独角兽们如雨后春笋般降生。关系数据库的降生给了我们甲骨文和 SAP 公司,而 SAP 和竞争对手们又一同为世界带来了全球无库存式供给链,在这一技术的根底上,苹果和星巴克等公司缔造了本人的帝国。上世纪 90 年代,简直一切企业级软件都换用了关系数据库,包括 PeopleSoft,CRM 和 SuccessFactors 都是基于关系数据库运转的产品。此役之后,再也不会有人傻兮兮的说“没用的,甲骨文早已吃掉一切数据库”这种话了。相反,这项技术简直成了一切新事物的赋能层,它已无处不在。

因而,这一思绪才是我们如今重新考虑机器学习的最佳接中央式,它会给计算机才能带来宏大的跃升,成为不同公司不同产品中的一局部。最终,机器学习也会无处不在,成为大家习以为常甚至都不愿再提的一项技术。

值得一提的是,虽然关系数据库具有规模经济效应,但它提供确实实一个无限网络或“赢家通吃”的效应。也就是说,即便公司 A 和公司 B 买了同一个数据库软件,两家公司也不会从对方那里获益。机器学习也遵照异样的道理,它的一切都与数据有关,但数据又与特定的使用顺序毫不相关。更多的笔迹数据只会进步它任笔迹的才能,而更多的燃气轮机数据让零碎能提早预测毛病,但两者并不能互相扶持。这就是其严酷之处,数据是不可替代的。

下面这段话其实彻底攥住了我们关于机器学习普遍曲解的中心,即在某种水平下去看,它是一个单一的通用的事物。同时,在了解什么是自动化时我们也犯了相反错误。在每一次自动化风潮到来时,我们都觉得本人在发明一种拟人的且有根本智力的技术。举例来说,上世纪 50 年代,人类开端畅想能做家务和上菜的机器人,后果我们没培育出机器人效劳生,反而造出了洗衣机。

关于机器学习,你所知道的,可能都是错的

洗衣机也是机器人,不过它们并非“智能”机器人。它们不清楚水和衣服究竟是何物。此外,即便是在洗濯这个分类中,它们也并非通用产品,要不然洗碗机也不会降生了。复杂来说,它们只是另一种方式的自动化,在概念上和传送带没什么不同。异样的,机器学习的确能让我们处理许多如今电脑搞不定的成绩,不过这些成绩一定都需求不同的完成方式和不同的数据,甚至是不同的市场战略和开发公司,而这其中的每一环都是自动化的一块拼图,它们是一个个能执行不同义务的洗濯设备。

因而,在议论机器学习时我们一定会遭遇“拦路虎”,即我们要在数学的机械论解释和对人工智能的梦想中找到两头立场。

让我们回到与关系数据库的类比话题,如今我们的确能决心满满的说,这项技术能处理少量成绩,但你并不晓得是哪些详细成绩。你能用机器学习停止令人印象深入的语音和图像辨认展现,但普通公司用它来干什么呢?就像一家美国媒体公司说的:“有了机器学习,我们的确能一次给十年的访谈节目做索引,但我们要在索引里找什么呢?”

那么什么才是有真正用处的机器学习洗濯机呢?要解答这个成绩,我以为需求用到两种工具。第一种是依照数据类型和成绩类型的队列停止考虑。

  • 1. 机器学习的确能在你所拥有的数据中疾速找到成绩答案,你甚至可以将它看做一种剖析或优化技术。举例来说,我们的投资公司 Instacart 就打造了一套零碎,专门用来优化团体买家经过分散渠道停止投资的途径。这套零碎直接将效率提升了 50%,而且开发团队只要三名工程师(用了谷歌的开源工具)。

  • 2. 同时,机器学习还能让你在数据中找到新成绩的答案。举例来说,一位正在为打官司做预备的律师可以搜索到包括“愤恨”、“忧虑”或“失常”意味的邮件,这样就比单纯的关键词搜索高效多了。

  • 3. 机器学习翻开了新大门,给了我们可以剖析的新数据类型。从前计算机无法真正的读懂音频、图像或视频,但将来这一切都有能够成真。

在这三种数据类型中,我发现图像最风趣。计算机降生伊始,就能处置文本和数字,但图像和视频却是它们的软肋,如今它们不但能读,还能看了。这就意味着图像传感器和麦克风成了一种全新的输出机制,它们摄像头的属性被机读数据流生成器属性盖过。一切的事都会成为计算视觉成绩,但这里的计算视觉成绩又与当下的计算视觉成绩有所不同。

这又与辨认“猫片”有关。最近我观赏了一家汽车座椅供给商,它们就在自家的廉价 DSP 芯片中灌入了神经网络,而与其配合的则是廉价的智能手机图像传感器。它们搭建这套零碎,是为了查找座椅织物中的褶皱。将这套零碎称为“人工智能”有些夸大其词了,它只不过是将某种此前无法自动化的义务自动化了而已。

这种自动化的觉得是我们考虑有关机器学习成绩的第二种工具。对人来说,找找织物中的褶皱可用不了二十年的经历积聚,由于它太复杂了。现实上,我的同事就以为,那些无论如何训练,狗狗都学不会的才能,机器学习都能掌握。这无益于我们考虑有关 AI 成见的成绩,但还是有本人的局限性。由于狗狗可没有普通智力和知识,而神经网络可不同。吴恩达就指出,机器学习能在一秒钟之内学走你的才能。

五年之前,假如你给计算机一堆图片来识别,它们能做的只是区分这些图片的尺寸,而十岁的小孩很轻松就能分辨出照片中的男人和女人,而十五岁的小孩则能看出照片里的面孔酷不酷,而再长大几岁去实习时,人甚至能看出照片中的隐晦的意味。有了机器学习后,计算机的才能马上就提升到十岁孩子的级别,它们甚至能冲击下十五岁的智商。机器学习能够永远达不到实习生的程度,但假如你手上有 100 万个十五岁孩子来保管数据呢?你会命令他们做什么?听什么电话?看什么图片?审查什么文件或信誉卡领取呢?

换言之,机器学习不需求成为拥有几十年经历的“老司机”,我们也不是要让专家成为自动化的“牺牲品”。相反,我们对机器学习的次要要求是“接听一切电话并挑出那些生气的人”,“阅读一切邮件并找出那些满是焦虑的邮件”,“看遍不计其数张照片并找到那些照片中的炫酷人类”。

在某种意义上,这就是自动化的常规。Excel 没给我们人工会计员,PS 也没给我们人工图片设计师。相反,我们大规模自动化了团圆的义务。

在某些范畴,机器学习能够找不到人类曾经看法到的东西,但它们却能找到我们看法不到的或许范式、推论或暗示,就像 Deepmind 的 AlphaGo 那样。AlphaGo 并不会像围棋运发动那样下棋,而是先学会规则随后停止不时的左右互搏。假如机器学习充任着实习生的角色,它们不会一开端就通知你某张照片很美观,而是在看到第三百万张图片时,发现其中的范式。那么,究竟哪个范畴小到让我们能通知机器学习零碎详细的规则,以便它们能在数据中发掘出新的效果呢?

我花了很多工夫遍访各家公司以寻觅它们的技术需求,在机器学习上显然它们曾经有许多行将成熟的果实。不过,这里的确还有许多分明的剖析和优化成绩,有些则是图像辨认或音频剖析成绩。我们讨论自动驾驶汽车和混合理想是由于机器学习成了它们的催化剂。机器学习让汽车能看到它四周事物的一举一动,至于混合理想,机器学习则决议了头盔佩戴者究竟能看到什么。不过,在讨论过织物上的褶皱或呼叫中我国这片创新热土正在发生一场全面而深刻的产业结构变革。心的情感剖析后,这些公司又有了新成绩:“机器学习还有其他能耐吗?它们还能助力什么技术?又能发现什么新机遇?”

在腻烦这些成绩之前,我们恐怕还能坚持 10-15 年的新颖感。

via  ben-evans ,雷锋网编译。

关于机器学习,你所知道的,可能都是错的