雷锋网 AI 科技评论按:芮勇博士在 2016 年 11 月正式从微软亚洲研讨院卸任常务副院长职务,担任联想集团首席技术官、初级副总裁,担任联想集团技术战略和研发方向的规划和制定,并指导联想研讨院的任务。2017 年年底,芮勇博士凭仗对图像、视频和多媒体剖析、了解和检索的奉献中选 ACM Fellow。
在任职联想 CTO 的一年多工夫内,如芮勇博士所言,联想正在停止「from device/infrastructure only to device + cloud and infrastructure + cloud powered by AI」的转型。目前联想研讨院在人工智能的开展上存在哪些优势,芮勇博士所擅长的多媒体计算范畴又将如何与联想的产品与业务相结合?
雷锋网 (大众号:雷锋网) AI 科技评论近期与芮勇博士停止了一次专访,结合国际计算机学会(ACM)对芮勇博士停止的采访内容整理成文,并做了不改动原意的编辑和删减。
您是怎样进入多媒体计算研讨范畴的?
在我读本科和硕士的时分,我的方向是控制实际和大规模零碎优化。这些专业知识对我后来在多媒体范畴的研讨任务,比方「相关性反应 (relevance feedback)」,神经网络和深度学习等,都发扬了重要的作用。
在伊利诺伊大学厄巴纳-香槟分校读博时期,我开端从事多媒体剖析和检索的研讨。那时,互联网还处于幼年时期,Web 阅读器刚刚呈现,而搜索引擎还没有降生。在那个时代,图像搜索的概念相当超前。
事先我遇到了一个很好的时机。美国国度自然迷信基金会设立并赞助了「数字图书馆」项目。我有幸参与其中。我把控制实际,信息检索和计算机视觉这三个范畴交融起来,停止了深化的跨学科研讨,最终,我成为第一批基于相关性反应完成图像搜索的研讨者,为图像搜索发明了一种全新的形式。「相关性反应」是一种经过用户先前的搜索后果和行为形式剖析而优化搜索后果的办法。
取得博士学位后,我开端了在微软 18 年的职业生涯。在那里,我持续从事多媒体剖析、了解和检索,机器学习,计算机视觉和形式辨认等范畴的研讨任务。
如今,作为联想的首席技术官和联想研讨院的指导者,我将持续率领团队推进多媒体计算的开展,并将最前沿的多媒体研讨效果融入到联想的产品和效劳中去。
在人工智能的研讨上,联想目前获得了哪些停顿和使用?有哪些难点和应战?
联想研讨院目前已树立了公司级别的人工智能平台,支持 计算机视觉,语音,自然言语了解 等范畴的研讨。
在计算机视觉范畴,我们曾经获得了明显停顿。比方我们在 2017 联想 Tech World 上展现了 E-Health。E-Health 是使用于医学范畴的智能医疗图像辅佐诊断处理方案。它集成了前沿的深度学习算法,依托于拥有弱小计算才能的联想云平台,凝聚了众多医学专家全方位的诊疗经历。它一方面在加重医生任务量的同时,也可以防止由于医生疲劳等要素而发生的误诊状况;另一方面可以智能剖析医疗图像自动为医生提供辅佐诊断的意见。
在 2017 全球肝脏肿瘤医疗图像联系大赛 (Liver Tumor Segmentation Challenge) 中,E-Health 团队力压群雄,夺得冠军。
我们还研收回交融了先进 slam 技术和计算机视觉技术的联想第一代晨星 AR 眼镜和 AR 平台,努力于将 AR 与工业维护、教育、培训等垂直行业结合。
在自然言语了解方面,联想发布了旗下首款智能音箱,它可经过语音交互完成选歌播放,天气查询,电台收听等操作,其中的自然言语了解以及会话引擎就是来自联想研讨院的研讨效果。研讨院为智能音箱提供了多轮、多子域、上下文相关的会话引擎,其交互体验和精确率均到达了国际抢先水准。
在人机交互方向,联想研讨院研发的自动语音辨认平台可以运用户经过语音完成手机上打电话等根本操作,以及查询天气,叫车等基于互联网的效劳。目前该平台已使用在了 Moto 手机的智能语音助手、使用商店等预装效劳中。
还有,我们研发的联想小乐智能客服处理方案,无机结合人工智能客服机器人和人工客服代表,完成任何工夫、任何地点、以客户喜欢的多媒体方式(文字,图片,语音)为客户提供效劳。
从 ACM MM 17 的论文录用状况来看,视觉仍然是多媒体范畴的一个重要研讨方向。而近年来,计算机视觉与 NLP 之间的结合也越来越丰厚。面对这种研讨范畴间的穿插交融,相较其它企业,联想具有哪些研发优势?
是的,计算机视觉与自然言语了解之间的结合越来越丰厚。联想研讨院在这方面也获得了不少效果,比方方才提到的、我们在 2017 联想 Tech World 上展现的 E-Health。它可以智能剖析医疗图像,并自动为医生提供辅佐诊断的意见。
从技术的角度来说,以深度学习为代表的人工智能算法正在并将持续促进多媒体研讨,尤其近期深度学习较好构建了基于多模态 (multi-modality) 的算法框架,使得跨范畴的多媒体数据的无效交融、应用/检索成为能够。
比方图像和视频的描绘 (captioning)。几年前,描绘能做的只是给图像或视频自动打上标签 (tag)。而深度学习树立了计算机视觉和自然言语处置之间的衔接,可以将零散的标签变成一句基于视觉内容并且通畅连接的自然言语描绘。这是穿插范畴的典型使用,不只需求了解视觉,也要晓得如何对自然言语停止建模。
随着相关范畴和硬件设备的进一步开展,图像/视频描绘甚至将支持一段(多句)关于内容的自然言语描绘,也将支持更自然的用户交互零碎;支持的模态 (modality) 也会逾越计算机视觉和自然言语处置的范围,例如,可以导入语音特征 (voice features), 空间深度信息 (depth feature), 文本特征 (text features) 等。
联想在人工智能的算法方面有很多投入。联想研讨院人工智能实验室研讨人员已添加到 100 多位,吸引了全球的顶尖选手参加。
除了算法,在开展人工智能方面,不管是大数据、计算力,还是从端到云,联想都有很多优势。
-
大数据: 联想在大数据上也有十分多的投入。我们是国际最大的制造企业数据集群,拥有超越 12 个 PB+的数据,并且每天还新增 30 个 TB 的数据,处置超越 150 亿条的信息。
-
计算力: 联想拥有弱小的运算才能。全球前 500 个超级计算机中有 87 个是联想的。联想延续第四次获得 HPC TOP 500 榜单中国第一,全球第二的成果,并以 17% 的增长率成为全球增速最快的 HPC 厂商。目前全球 500 强企业超算零碎中,有 87 家采用了联想的 HPC。
联想其实对垂直行业十分理解。一个算法再好,也必需要和垂直行业相结合,这一点也是联想的优势。
-
此外,我们还有 从端到云的共同优势 。联想拥有设备入口,能让设备和效劳更好结合。后端又有云,经过云,应用人工智能技术,我们可以更好地理解用户的需求,从而会把效劳做得更好,更贴心,愈加特性化。设备、效劳、云三个元素无机结合起来,从而构成一个互相缩小的、正反应的循环。
在研发团队方面,我们正在鼎力建立我们的创新军团。去年底,凭仗在图像、视频和多媒体剖析、了解和检索范畴的奉献,我中选了含金量十分高的国际计算机学会(ACM)Fellow,而且是中国大陆首位来自企业的 ACM Fellow。此外,联想研讨院 AI Lab 担任人是原德国人工智能研讨中心徐飞玉博士,欧洲迷信院院士汉斯·乌思克尔特博士是我们的首席 AI 参谋。我置信,在众多优秀人才的努力下,联想的创新才能将失掉极大提升。
您于 2016 年 11 月参加联想担任 CTO,在您的推进下,人工智能在一年多的工夫里成为联想「设备+云」、「根底设备+云」战略转型的重要支撑点。从研发的角度来看,目前联想重点攻关的人工智能技术是什么?有哪些方针与规划?
技术研发方面,目前,联想研讨院正在计算机视觉、语音、自然言语了解、情形感知、知识图谱等人工智能重点技术范畴加大研发。
规划方面,联想和联想研讨院将发力 智能设备、智能云平台和智能效劳 三个方向。
联想是十分弱小的设备公司,我们将不时研发新型的智能设备,不只是传统意义上的设备,还包括一些可以跟人严密相连,可以拿在手里,穿在身上的设备。
我们还将鼎力开展软件定义数据中心和跨平台的智能云管理平台,构建愈加智能化的数据中心。
此外,我们也树立了公司级别的人工智能平台,经过这个平台,衔接设备和效劳,打造垂直范畴处理方案,比方方才提到的智慧医疗,为行业转型和开展赋能。
联想目前有三个大的业务构造,一个是 PC、一个是手机,还有一个是数据中心集团。除了将 PC 与手机作为设备入口,数据作为多媒体内容相关算法的根底外,从您的角度来看,还能有哪些创新与能够性,以带动多媒体内容在业务间的使用和落地?
首先,将来的 PC 和手机都会发作变化,在 5G 迅猛开展的明天,我们正在着眼于下一代 PC 和手机的研讨,我置信,它们会支持更丰厚的多媒体内容和体验。
此外,联想研讨院不断努力于将来新型智能设备的研发,包括可穿戴设备、AR 设备等。在这些新型智能设备上,我们会交融多媒体技术。比方在 2017 年联想 Tech World 上展现的 SmartCast+,它是联想推出的、全球首款拥有物体辨认才能、完成 AR 体验的智能音箱原型。它让人工智能从声响层面扩展到图像、交互,以及辨认的更高层面,极大地丰厚了用户的实践体验。
说到 AR,如今也迎来了大开展的时期。将来 AR 的形状能够会愈加丰厚多彩,比方能够有 transparent display overlay, projected display 以及更多的 augmented senses 等。
此外,多媒体内容在垂直行业也会拥有宽广的使用前景。比方方才我提到的联想晨星 AR,在工业维护维修、教育等行业都大有用武之地。
从技术的角度而言,后台训练平台是提升多媒体内容训练效率的关键。 比方我们搭建的联想公司级别的人工智能平台,是一个散布式深度学习平台,支持多种开源框架,可完成散布式义务调度,经过多节点并行减速实验、算法研讨和模型迭代的进程,可以面向多个 AI 使用。它拥有足够充沛和无效的训练数据,既包括业内地下的数据库,也运用了联想本人积聚的大数据。
智能手机是人们消费多媒体内容的次要渠道之一,联想也是智能手机制造商。依据现有研讨和产品开发的停顿,您以为将来的智能手时机是怎样的?
从技术的角度来看,将来,像人工智能、VR/AR, 5G, 实时翻译,新电池技术以及全息技术的开展,将深入改动智能手机和用户的体验。
详细而言,无边框屏 (infinity screen),神经网络处置器 (NPU),以及更多的传感器能够会呈现在智能手机上。在传感器方面,手机将会交融生物特征传感器、深度摄像头,多摄像头以及更好的计算机视觉技术。此外,5G 的开展将为智能手机用随着流量往智能终端设备迁移,新的机遇“物联网商业社交时代”也将迎来,通过人的第六器官(智能手机)和智能设备终端的联网互动,从而改变了人的行为习惯和消费方式。线下流量通过LBS定位重新分配,又通过物联网终端智能推荐引擎引导到网上任意有价值的地方,至此互联网下半场拉开帷幕。户带来 10 倍带宽和零延迟。
智能手机的形状也能够会发作大的变化。其中一个能够性是可折叠手机。比方,2016 年,联想研讨院研收回业界第一个真正的可折叠手机原型 CPlus 和 Folio。CPlus 可以在手机和腕表之间转换形状,而 Folio 则可以在平板和手机之间随意切换。
联想正在进军 AR/VR 范畴,比方联想 VR Classroom 以及迪斯尼和联想协作推出的《星球大战:绝地应战》AR 设备 Lenovo Mirage。AR/VR 技术已存在了几十年,为什么如今这些技术正在走向主流?
是的,AR/VR 技术曾经存在了几十年。但近年来的技术打破,比方光学镜头,计算机视觉以及 slam(simultaneous localization and mapping, 即时定位与地图构建),让 AR/VR 技术开端减速开展,宏大潜力开端显现。另外,AR/VR 可以协助处理很多行业上的痛点成绩,也可以给用户带来全新的文娱体验。
我团体以为, 与 VR 相比,将来 AR 很能够会成为一个更大的、更有前景的平台。 尤其是当 AR 与垂直行业结合时,比方教育,培训以及工业维护等。在联想 2017Tech World 上,我们展现了联想研讨院研发的晨星 AR(daystAR) 眼镜原型以及我们的 AR 平台。一位工程师在现场展现了如何应用这些 AR 设备战争台维修呈现毛病的飞机发起机,生动地诠释了 AR 技术在垂直范畴的宽广使用前景。
雷锋网AI科技评论报道。
。