农企新闻网

从机器学习中获取价值的正确姿态

发布者:刘同华
导读大众号:AI火线作者 | Ben Schreck、MaxKanterKalyan 等译者 | Liu zhiyong编辑 | Natalie CaiAI 火线导读:以往当企业想用机器学习处理成绩时,他们往往需求一个团队。即便是一个十分复杂的成绩,也需求多位数据迷信家、机器学习专家以及范畴专家共同商定优先事项并交流数据和信息。这个进程往往效率低下,需求数月工夫才干取得后果。并且这也只能处理当下的成绩

大众号:AI火线

作者 | Ben Schreck、Max

KanterKalyan 等

译者 | Liu zhiyong

编辑 | Natalie Cai

AI 火线导读:以往当企业想用机器学习处理成绩时,他们往往需求一个团队。即便是一个十分复杂的成绩,也需求多位数据迷信家、机器学习专家以及范畴专家共同商定优先事项并交流数据和信息。这个进程往往效率低下,需求数月工夫才干取得后果。并且这也只能处理当下的成绩。下一次再呈现成绩时,企业必需反复上述进程。有什么方法处理这一困境吗?Accenture 和脱胎于 MIT 的 Feature Labs 提供理解决方案,让我们来看看。

从机器学习中获取价值的正确姿势

更多干货内容请关注微信大众号“AI 火线”,(ID:ai-front)

机回到当下汹涌澎湃的AI浪潮,正如所有的企业都被互联网化一样,所有的互联网企业都将 AI 化。而这些互联网企业中,也包含CSDN。同时,作为全球最大的中文IT社区,CSDN还有一个历史使命——为广大的互联网公司进行AI赋能。器学习可以为普遍的行业带来真逼真切的商业价值——前提是机器学习曾经真正地投入运用。虽然学者们在机器学习中取得了许多新发现,新的研讨论文标明了什么是能够的,并且有越来越多的可用数据,为理解决实践的商业成绩,企业正在努力部署机器学习。简而言之,大少数企业之所以存在差距,并不是由于机器学习不起作用,而是企业不晓得要怎样用机器学习。

企业要如何做,才干减小这种执行差距?在最近的一个项目中,我们论述了如何做到这点的准绳。我们运用机器学习为经我国这片创新热土正在发生一场全面而深刻的产业结构变革。历丰厚的专业人员加强才能,在这种状况下,允许项目经理提早做好由数据驱动的业务决策。如此做,我们证明了:从机器学习中取得价值,并非运用最前沿的模型才行,而是让机器学习变得更容易部署。

AI 担任项目经理

像 Accenture 这样的技术效劳提供商展开多个软件项目,他们常常面临的一个共同应战是,在预先发现成绩,然后要求停止调查,以确定基本缘由。这是一项有趣的义务,当上百个项目同时发作成绩的状况下,这一义务能够会变得难以跨越。一个积极的处理方案可以节省工夫,并增加初次呈现成绩的风险。我们的团队决议处理这个成绩,经过查找复杂的数据量中的形式,构建机器学习模型,并应用它们来预测关键成绩的发作。我们努力所做的这一切,称之为“AI 项目经理”。

AI 火线注:Accenture 是一个管理征询、信息技术和业务流程外包的跨国企业。2015 年 Accenture 在 55 个国度、200 多个城市有超越 38 万 4 千名员工,营业额约 329 亿美元,是世界上最大的管理征询企业和《财富》世界 500 强企业之一(2009 年排名第 348 位)。Accenture 经过企业战略、业务流程、信息技术和人员组织的严密结合,协助客户完成具有深远意义的革新,进步客户的绩效程度,并以出众的指导才能、成功决计、专业效劳和质量承诺在客户中享有盛誉,其客户包括《财富》世界 500 强中超越八成的跨国企业、各国政府机构以及军队。

AI 项目经理是人类项目经理的强力助手,应用软件项目中的历史数据,AI 项目经理可以训练基于机器学习的模型,提早数周的工夫来预测成绩能否能够发作。作为一个测试案例,我们决议应用我们构建的机器学习模型来预测软件项目针对一系列交付目标的功能。

训练模型

为训练这个模型,我们先整理了过来三年数千个项目的历史数据,包括数以百万计的记载。该模型辨认了能够标明项目功能行将呈现成绩的风险信号,包括日益增长的处理 bug 所破费的均匀工夫,以及积压处置和处理工夫。最重要的是,它可以提早预测潜在的风险——在我们这次案例中,提早了周围。这多出来的工夫,效劳提供商团队可以确定行将呈现成绩的性质,并采取弥补措施避免该成绩发作。AI 项目经理根本上就是一个晚期预警零碎,人类项目经理才干承当更多有价值的商业义务。

模型一旦交付,部署团队就开端将它使用到模型以前不曾发现的传入数据。察看了几个月的数据之后,模型的表现波动,于是我们有决心在几个项目中运用这个模型。目前,AI 项目经理(已经过交付项目测试并集成到 Accenture 的自动化平台 MyWizard)每周提供预测,在 80% 的工夫都精确地预测了风险信号,有助于进步与项目交付相关的关键绩效目标。

AI 火线注:MyWizard 是 Accenture 于 2016 年推出的智能自动化平台,这一平台涵盖了零碎集成以及使用软件开发与管理两大内容,为客户提供更智能、更创新且更高效的使用软件效劳。MyWizard 平台聚集了 Accenture 众多独有的行业资源,包括智能和数据剖析工具与办法,以及来自 Accenture 协作同伴的工具。借助 Accenture MyWizard,企业可以完成日常义务型任务的自动化,将任务效率提升最高达 60% 左右,从而使其能专注于更具战略意义的任务。

这个项目的下一步将运用相反的数据创立模型,以预测本钱超支、交付进度延迟以及对组织业务绩效至关重要的项目执行的其他关键方面。

完成胜过完满

当我们构建机器学习模型时,我们诧异地发现,并没有任何宣传最普遍的数据迷信工具(如深度学习、AutoML、发明 AI 的 AI 等)需求它来发扬作用。现实上,它们也不会协助我们完成关键目的。相反,我们最大的需求,是强健的软件工程理论、范畴专家得以进入正常程度的自动化,以及可以支持片面模型测试的工具。

我们预期其他企业也许会得益于这些经历,于是我们将这些经历组织成一个新的机器学习范式,称之为 ML 2.0。这个框架中的关键步骤在这篇论文 Machine learning 2.0 Engineering data driven AI products 中有所论述,并且失掉了开源工具 Featuretools 的支持。
AI 火线注:Featuretools 是一个执行自动特征工程的框架。它擅善于为深度学习把相互关联的数据集转换为特征矩阵。

GitHib:https://github.com/featuretools/featuretools/特征工程是构建任何智能零碎的必要局部。特征工程是将原始数据转化为特征,更好表示预测模型处置的实践成绩,提升关于未知数据的精确性。它是用目的成绩所在的特定范畴知识或许自动化的办法来生成、提取、删减或许组合变化失掉特征。特征工程是一门艺术也是一门迷信,这就是为什么数据迷信家在建模前通常花 70% 的工夫用于预备数据。

机器学习的新范式四个最重要的方面如下:
疾速进程: ML 2.0 可协助用户经过七个准确步骤,将原始数据表示转换到已部署的模型。因而,一支四人小组可以在八周以内开收回概念验证并部署必要的模型。而这在旧范式下是不能够完成的,旧范式需求昂贵的投入,比方为发现模型而构建的一次性软件,以及效益无法量化的算法。

范畴专家更普遍的参与: 范畴专家确定关键变量,比方,哪些特定事情会对项目绩效构成风险;该项目在多大水平上可以预测信息的价值,以及过来哪些项目应该用于训练该模型。ML 2.0 为范畴专家提供了一个预测工程工具,他们因而才干设置关键参数,并确保该模型可以发生商业价值。

自动特征工程: 机器学习进程中一个重要局部是特征工程,它触及运用范畴知识从原始数据中提取形式或特征。范畴专家通常比机器更擅长提出具有预测才能的形式,比方,添加出票均匀呼应工夫能够最终招致项目绩效不佳。但是,需求运用自动化软件工具来计算、提取这些特征。我们运用了 Featuretools,这是一款由 DARPA 资助的、Feature Labs 创立的开源库,我们有三团体管理这款工具。这款工具引荐了 40000 种形式,范畴专家将其缩减到 100 个最有希望的形式。

AI 火线注:Feature Labs 于 2015 年秋天成立,由 Veeramachaneni 和 Kanter 创立,该企业的业务是将数据剖析技术的商业化。

Kanter 如今是企业的首席执行官,Benjamin Schreck 是首席数据迷信家。官网:https://www.featurelabs.com/
智能模型测试: 就像大少数范畴专家一样,软件项目经理需求经过多轮验证,并在实践场景中完成测试新模型,才会有足够的决心停止部署。ML 2.0 内置的自动化测试套件可以让部署团队灵敏地模仿数据的先前形态,添加开发进程中被隐藏的数据,并在几个工夫点上停止本人的测试,这包括在部署时停止实时测试。

预测才能是一种竞争优势

假如企业要从机器学习中取得真正的价值,他们不只要关注技术,还要关注进程。机器学习专家需求认识到尖端迷信与组织真正可以完成针对实践成绩的任务模型的才能之间的差距。对机器学习而言,减少施行差距需求一种新办法,其中就有许多风趣的技术成绩。

ML 2.0 将机器学习置于业务功用的中心,而不是将其作为独自的研发活动,从而有助于将机器学习的潜力转化为实在的业务效果。这么做,直接影响了组织如何运营业务、如何发明新的支出来源、如何重新想象他们的产品和效劳、如何进步运营效率、重新定义员工队伍等等。明天,企业不只要答复如下成绩:我们能否到达了本季度的销售目的?我们能否到达了目的受众?我们的广告收入能否到达目的?相反,他们还想晓得将来能够会发作的事,他们希望可以疾速简便地做出由数据驱动的预测决策,而这就是 ML 2.0 给我们的承诺。