微信大众号“AI 火线”,(ID:ai-front)
作者| David Robinson
编译 | 严子怡
编辑|Emily
当我向他人引见我是一个数据迷信家的时分,我经常听到这样的疑问:“这和机器学习有什么区别?”或是“这是不是意味着你在做人工智能?”。我曾经答复过太屡次这样的成绩。我答复的次数曾经到达我事不过三的准绳
David Robinson 的推文:
当你把相反的代码写了三遍时,请写一个函数。当你面对面的给过了 3 次完全相反的建议时,请写一篇博文。
这些范畴之间确实有很大水平上的重合。并且,这其中的每一个范畴都存在少量的炒作,以致于选择运用哪一个词这件事仿佛是一个跟营销有关的成绩。 但是,它们并不是可以随意互换的。 即便很难用言语表达出来,大少数这些范畴里的专家都能凭直觉天文解哪些任务属于数据迷信,哪些任务属于机器学习或许人工智能。
因而,在这篇文章中,我提出了一个十分复杂的关于这三个范畴之间区别的定义:
- 数据迷信发生洞见
- 机器学习发生预测
- 人工智能发生举动
要廓清的是,这不是一个充沛条件:不是一切契合某个定义的东西就属于这个范畴。(算命先生也发生预测,但我们绝不会以为它们在做机器学习!)这些定义也不是很好确实定一团体的角色和任务的方式(“我是一个数据迷信家吗?”),这样的成绩是与团体关注的方向和阅历有关的。(这关于任何一个关于任务的描绘都是对的:我的任务的一局部是写作但我不是一个专业的作家)。
但是,我以为这些定义在用于区分这三品种型的任务时是十分有用的。并且当你谈起这些知识时,这些定义可以让你防止本人听起来很蠢。值得留意的是,我采取的是描绘主义而不是规则主义的办法:我感兴味的并不是这些术语“应该是什么意思”,而是这个范畴的人通常是如何运用它们的。
数据迷信与其他两个范畴的区别在于它的目的其实是人的目的:取得洞见和了解。Jeff Leek 对数据迷信能到达的哪些类型的洞见有一个十分好的定义 ,包括描绘性(“普通客户有 70%的能够去续费”),探究性(“不同的销售人员有不同的续费率”)和因果关系(“随机化的实验标明分配给 Alice 的客户比分配给 Bob 的客户更有能够续费”)。
再次强调,并非一切发生洞见的都被以为是数据迷信(数据迷信的经典定义是,它是统计学、软件工程和范畴专业知识的组合)。但是我们可以用这个定义把它与机器学习和 AI 区分开来。次要的区别在于,在数据迷信的任务流程中,总是存在一团体:这团体正在了解这些洞见,察看图表,或许从结论中受害。所以,我们不能说“我们的象棋算法运用数据迷信来选择下一步怎样走”或“Google 地图运用数据迷信来引荐行车道路”。
因而,这个关于数据迷信的定义强调:
- 统计推断
- 数据可视化
- 实验设计
- 范畴知识
- 沟通 不知道从何时开始,个人信用渗透到生活的方方面面。图书、数码产品免押金借用,办理签证无需银行流水证明,甚至租车住酒店都不需要交付押金……
数据迷信家能够会运用复杂的工具:他们可以报告百分比,并依据 SQL 查询制造线图。他们还可以运用十分复杂的办法:他们能够会运用散布式数据存储来剖析数以万亿计的记载,开发尖端的统计技术,并构建交互式可视化。无论他们运用什么,他们的目的是更好地理解他们的数据。
我以为机器学习是一个关于预测的范畴:“给定某个具有特定特征的实例 X,预测 Y”。这些预测能够是关于将来(“预测这个病人能否会患败血症”),但是它们也能够是一些计算机不容易了解的特质(“预测这个图像能否有鸟 ”)。简直一切的 Kaggle 竞赛都是机器学习成绩:他们提供一些训练数据,然后看看参赛选手能否可以对新的例子做出精确的预测。
数据迷信和机器学习之间有很多堆叠。例如,逻辑回归可以用来获取有关关系的洞见(“用户越有钱,他们购置我们的产品的能够性越大,所以我们应该改动我们的营销战略”),并做出预测(“这个用户有 53%的能够性购置我们的产品,所以我们应该把这个产品引荐给他“)。
像随机森林这样的模型可解释性稍差。因而,它更像是属于机器学习和深度学习等难以解释的办法。假如你的目的是提取洞见而不是做出预测,这些办法能够会障碍你的任务。因而,我们可以想象一个包括数据迷信和机器学习的“光谱”,在其之上,易于解释的模型倾向于数据迷信这边,而“黑盒”的模型在机器学习那一边。
大少数从业者可以十分温馨地在两个义务之间来回切换。我在任务中同时运用了机器学习和数据迷信:我能够会运用 Stack Overflow 的流量数据训练出来的模型来确定哪些用户能够正在寻觅任务(这是机器学习),但是也会构建概括性描绘和可视化来反省为什么模型可以正确任务(这是数据迷信)。这项任务是发现你的模型中的缺陷,并与算法偏向作妥协的一个重要途径。这是为什么数据迷信家常常担任开发产品的机器学习组件。
人工智能是迄今为止这三个范畴中最陈旧也是最广为人知的,因而定义它是最具应战性的。这个词语被少量的炒作所包围,这要缘于研讨人员,记者以及寻求金钱或关注的创业公司。
Baron Schwartz 的推文:
当你在融资时,它是 AI;当你在招聘时,它是机器学习;当你在写代码时,它是线性回归;当你在调 bug 时,它是 printf()
这让我内心发生了很不幸的顺从心情。由于这意味着一些应该被称为 AI 的任务没有被当作 AI。一些研讨人员甚至埋怨 AI 的效应:“AI 是我们如今还无法做到的”【脚注 1】。那么我们可以把什么任务称作 AI?
“人工智能”定义中的一个共同点是自主举动主体执行或引荐举动(例如 Poole,Mackworth 和 Goebel 1998,Russell and Norvig 2003)。一些我以为应该描绘为 AI 的零碎包括:
- 游戏算法(深蓝,AlphaGo)
- 机器人和控制实际(运动规划,行走双足机器人)
- 优化算法(Google 地图选择道路)
- 自然言语处置(机器人【脚注 2】)
- 强化学习
同时,我们可以看到人工智能有很多与其他范畴堆叠的局部。深度学习在完成机器学习到 AI 的跨越这一方面特别引人留意。典型的用例是对数据停止训练,然后停止预测,但它却在 AlphaGo 等游戏算法中取得了宏大的成功。(这与之前的游戏零碎构成了鲜明的比照,比方深蓝,它更专注于探究和优化后续的解空间)。
但他们之间也有区别。假如我剖析一些销售数据,发现某一行业的客户比其他行业的客户续费的更多(提取洞见),我的输入是一些数字和图表,而不是一个特定的举动。(主管人员能够会用这些结论来改动我们的销售战略,但这种举动不是自主的)这意味着我将会把我的任务描述为数据迷信。假如我说:我正在“运用 AI 来改善我们的销售状况”,那将是十分为难的。
Dave Gershgorn 的推文:
请不要看到一个只是训练过模型的人就说他掌握了 AI 的力气。
人工智能和机器学习之间的区别有点奇妙,历史上机器学习常常被以为是 AI 的一个子范畴(尤其是计算机视觉被视作一个经典的 AI 成绩)。但是我以为机器学习范畴在很大水平上曾经从 AI 脱分开来了,局部缘由在于下面所说的顺从心情:大少数从事预测成绩的人不喜欢把本人描述为 AI 研讨人员。(有助于完成许多重要的机器学习范畴打破的知识,大都来自统计学。而统计学在 AI 范畴的其他局部的呈现则很少)。这意味着,假如你可以把一个成绩描绘为“从 Y 预测 X”,我建议防止运用 AI 这个术语。
Amy Hoy 的推文:
依照如今的定义,y=mx+b 是一个可以通知你一条直线该往哪儿延伸的 AI 机器人。
假定我们正在建造一辆自动驾驶汽车,并且我们正在研讨如何停在标志停车旁这样一个详细的成绩。我们需求辨别在这三个范畴中运用以下技艺。
- 机器学习:汽车必需运用摄像头辨认停车标志。我们构建了包括数百万个街边物体照片的数据集,并且训练一个算法来预测其中哪一个有停车标志。
- 人工智能:一旦我们的车能辨认停车标志,就需求决议何时采取刹车的举措。过早或过晚地刹车都是很风险的,我们需求算法可以处置不同的路途条件(例如,在一条润滑的路途上,它能看法到它如今不能足够快地加速),这是一个控制实际成绩。
- 数据迷信:在街头测试中,我们发现汽车的功能不够好,呈现了一些本应该正确地停在停车标志旁的假阴性后果。剖析街上的测试数据后,我们取得的洞见是假阴性所占的比率取决于测试在一天的什么工夫停止:自动驾驶车很能够在日出前或日落后错过中止标志。我们认识到,我们的大局部训练数据仅包括日光充足环境下的对象。因而我们构建了包括夜间图像的数据集并再次从机器学习那一步开端做起。
脚注:
- 不可否认如今很多人把人工智能通常与可以跨越多个不同范畴执行义务的 通用人工智能 相混杂,甚至与逾越人类智能的 超人工智能 相混杂。这对任何如今称为“AI”的零碎都提出了不实在际的希冀。
- 这里所说的“机器人”是指一个可以解释自然言语,然后以某种方式回应的零碎。它不同于文本发掘,其目的是从中获取洞见(数据迷信),也不同于文本分类,其目的是对文档停止分类(机器学习)。
检查英文原文:
http://varianceexplained.org/r/ds-ml-ai/