农企新闻网

从学术研讨到使用落地,这 6 位计算机视觉大咖在 CV 专场上都讲了什么?

发布者:刘原远
导读雷锋网按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网(大众号:雷锋网)、香港中文大学(深圳)承办,失掉了深圳市政府的鼎力指点,是国际人工智能和机器人学术界、工业界及投资界三大范畴的顶级交流盛会,旨在打造国际人工智能范畴最具实力的跨界交流协作平台。雷锋网 CCF-GAIR 2018 延续前两届的“顶尖”阵容,提供 1 个主会场和 11

从学术研究到应用落地,这 6 位计算机视觉大咖在 CV 专场上都讲了什么?

雷锋网按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网 (大众号:雷锋网) 、香港中文大学(深圳)承办,失掉了深圳市政府的鼎力指点,是国际人工智能和机器人学术界、工业界及投资界三大范畴的顶级交流盛会,旨在打造国际人工智能范畴最具实力的跨界交流协作平台。

雷锋网 CCF-GAIR 2018 延续前两届的“顶尖”阵容,提供 1 个主会场和 11 个专场(仿活力器人专场,机器人行业使用专场,计算机视觉专场,智能平安专场,金融科技专场,智能驾驶专场,NLP 专场,AI+ 专场,AI 芯片专场,IoT 专场,投资人专场)的丰厚平台,意欲给三界参会者从产学研多个维度,出现出更富前瞻性与落地性相结合的会议内容与现场体验。

6 月 30 日,CCF-GAIR 大会停止到第 2 天,计算机视觉专场如期举行。本专场由两大议题组成,辨别是上午场“计算机视觉前沿与智能视频”以及下午场“计算机视觉与医疗影像剖析”。本文为计算机视觉专场上半场的精选内容。

在上午场的主题演讲中,港科大电子及计算机工程学系助理教授、RAM-LAB 主任刘明担纲掌管。在他的串联下,港科大教受权龙、旷视科技首席迷信家孙剑、云从科技结合开创人姚志强、臻识科技 CEO 任鹏、云天励飞首席迷信家王孝宇以及商汤结合开创人林达华这些学术界、工业界的众多大牛停止了 6 场深度分享,既有计算机视觉技术的前沿研讨静态,也有相关技术落地的方向。

从学术研究到应用落地,这 6 位计算机视觉大咖在 CV 专场上都讲了什么?

首先退场的是港科大教受权龙。

从学术研究到应用落地,这 6 位计算机视觉大咖在 CV 专场上都讲了什么?

*香港科技大学教授、ICCV 2011 主席、IEEE Fellow 权龙

权龙教授明天分享的主题是“计算机视觉、辨认与三维重建”,他次要从三个方面停止论述,辨别是计算机视觉的根底、计算机视觉的变迁与开展,以及计算机视觉最新的停顿。

他谈到,当下由于深度学习技术的开展,人工智能变得十分炽热,计算机视觉作为人工智能的一个范畴,也变得异常炽热。

人工智能的目的就是让计算机去看、去听、去读,其中一个重要的局部就是图像。权龙教授以为视觉是人工智能的中心范畴,由于视觉占据人类感官零碎的 80%,也是最难做的一局部。他甚至以为计算机视觉是推进人工智能“反动”的决议性技术。

接着,权龙教授复杂回忆了一下计算机视觉的变迁和开展。

在上世纪 70、80 年代,计算机视觉有了最后的开展,权龙教授表示他很有幸在 80 年代就参与了相关任务,那时分次要做一些复杂的物体分类任务,经过一些特征点来做。

在 90 年代至 2000 年这段工夫,变化发作了,以前都是提取一些特征点,这些年大家开端回过头来看几何的成绩,几何就是“三维重建”,这就推进了很多任务以点为根底,对点要做描绘。这是推进计算机视觉开展的一个很重要的事情。

到了 2012 年当前,计算机视觉进入到卷积神经网络(CNN)时代,该范畴发作了天翻地覆的变化,根本上是从特征到各种不同的算法,都被 CNN 一统。CNN 有一个益处,它是端到端的,它的完成是比拟容易的。

而在谈到计算机视觉的开展成绩时,权龙教授表示,如今每团体都在做辨认,但是它并不能代表一切计算机视觉,辨认只是一局部。假如要去做一些交互和感知,必需先恢复三维,所以在辨认的根底上,下一个层次必需走向“三维重建”。

针对这个范畴,权龙教授和他的研讨团队曾经做了诸多的任务并获得了一定的成果,在 4 月份,他们拿下了两个计算机视觉榜单的全球第一。

当然,目前在深度学习推进下的计算机视觉技术还有很多缺乏和应战,需求更多业内研讨者不时去探究,特别是在卷积神经网络开展走到更高维度的时分。

从学术研究到应用落地,这 6 位计算机视觉大咖在 CV 专场上都讲了什么?

*旷视科技首席迷信家、研讨院院长孙剑

紧接着是旷视科技首席迷信家孙剑下台,分享了他眼中的云、端、芯上的视觉计算。旷视科技成立至今已有 7 年,不断专注在计算机视觉感知范畴。

计算机视觉复杂来说就是让机器能看,假如更进一步,机器能了解一张图像或许一段视频,我们能做什么?针对这个成绩,孙剑和旷视给出的答案是“赋能亿万摄像头”,让使用在一切范畴的摄像头都具有智能,无论是在云、端还是芯片上。

孙剑表示,旷视一直在研讨计算机视觉的几个中心成绩,包括分类、检测以及联系,辨别对一张图、一张图的不同区域和一张图的每个像素做辨认,其中,分类是最为中心的任务。假如输出的是视频,则需求应用帧与帧之间的工夫关系来做辨认。

孙剑扼要谈及计算机视觉的历史,在他看来,计算机视觉的开展就是研讨图像如何 Representation 的历史。在 80 年代的时分,晚期神经网络成功运用在人脸和文字辨认上,但事先仅限在这两个范畴,所以很难去定义什么是图像 Representation。

2000年终,在深度学习盛行之前,有一类办法比拟热,那就是 Feature-based,在图片里抽取 Feature,然后对它停止剖析,这是深度学习之前最好的办法。但这个办法最大的成绩是它有两个缺陷:其一,它是全体的非线性变换,向量的变换次数是无限的;其二,外面大少数参数都是人工设计的,包括 Feature。

明天转到深度神经网络,这两个缺陷都被补偿了。其一是整个非线性变换可以做十分屡次,所以它有十分强的辨认才能;第二是一切的参数都是结合训练的,这两点让深度神经网络真正可以获得十分好的效果。孙剑在微软时提出的 152 层的 ResNet,第一次在 ImageNet 上超越了人的才能。

从2012年开端,各种各样的 Net 呈现了。孙剑从计算平台的角度对这些 Net 做了一个复杂的分类,辨别是云、端以及芯片三个不同的计算平台。GoogleNet、ResNet 就是在云上;谷歌 MobileNet 以及旷视在去年提出的 ShuffleNet 则属于端这一类;还有一些 Net 则是在芯片上,比方说 BNN 还有旷视提出的 DorefaNet。

孙剑针对 ShuffleNet 的构造停止了较为详细的引见,该神经网络是专门为手机端设计的。往年他们还设计了第二版的 ShuffleNet,丢弃了分组卷积的思想,而是引入了一个新的办法,用十分复杂的构造来做。

针对目前分平台辨别设计相关网络的现状,孙剑置信将来会有一个“metaNet”呈现,可以一致处理各个平台上的神经网络设计和优化成绩。

最初,孙剑复杂引见了旷视在云、端、芯三个平台上做的计算机视觉的使用,包括人脸辨认、车辆辨认、人脸领取、智慧安防、智慧金融等等。

从学术研究到应用落地,这 6 位计算机视觉大咖在 CV 专场上都讲了什么?

*云从科技结合开创人姚志强

云从科技结合开创人姚志强随后下台分享了作为一家人工智能视觉方案公司关于行业的了解和公司的停顿。他以为人工智能最大的作用在于充任宏大的计算资源、智力资源与普遍使用之间的桥梁。2015 年成立至今,云从科技已将企业的重要定位锁定在人机交互范畴,但关于人工智能技术、效劳和生态的了解经过了很多探索。 

姚志强以为,一家人工智能企业需求聚集技术资源、数据资源、平台、入口和资金,才干得以疾速开展,一些成熟的企业会开放一些技术给初创公司,使后者得以在不知道从何时开始,个人信用渗透到生活的方方面面。图书、数码产品免押金借用,办理签证无需银行流水证明,甚至租车住酒店都不需要交付押金……其中的某个场景深耕。数据资源优势的积聚也很重要,另外还有平台资源,目前云从的很多人工智能效劳经过云平台开放。

目前,云从在数据范畴成立结合实验室获取行业外部数据,并在对应行业的外部提供训练和效劳。云从还与政府有大数据等协作。在银行方面,姚志强引见,云从银行已是行业第一大人脸辨认供给商,并希望拉动更多生态银行提供完好的智慧银行效劳。安防行业也有很多应战,出于平安性思索,安防行业触及到诸如信息获取、加密、解密等复杂应战。

将来,云从并非定位于一家行业化的公司,而是基于人工智能、人机交互范畴的公司,经过现有资源拓展更多行业,将更多行业和人衔接起来。

从学术研究到应用落地,这 6 位计算机视觉大咖在 CV 专场上都讲了什么?

*臻识科技结合开创人兼 CEO 任鹏

臻识科技 CEO 任鹏聊了如何打造一款智能相机产品。臻识科技努力于将计算进视觉技术产业化,而智能相机作为载体,曾经在诸如智能交通、智慧社区、安防等各个场景中失掉使用。任鹏说,一款全智能相机,是要满足一个场景使用感知需求的相机,而不同范畴对场景的感知需求各不相反。

任鹏用“金字塔型”描绘完好的感知使用场景,底层是像素,两头是对象,最下层是行为。但成绩在于目前大局部使用停留在对象层,有很多还没有处理像素层的成绩,例如智慧城市用云端辨认后果做决策,但前端图像模糊,辨认有误报,就会影响决策乃至零碎运作效率。

总而言之,完成这种智能相机的落地包括三个难点:成像、算法、制造。成像方面,目前智能相机成像评测行业规范缺失,其实除理解决硬件、构造、热设计、光学等成绩,ISP(Image Signal Processing,图像信号处置)是相机的中心成绩,智能相机与普通拍照相机最大的区别在于,智能相机的 ISP 开发中心要基于物体的感知。算法方面,在嵌入式设备上开发智能相机,第一关于数据多样性、平衡性、场景顺应性的把控十分重要,第二芯片方案选型中有宏大应战。制造方面,供给链是不可躲避的成绩。

除了看好双目深度摄像头,臻识也在尝试多传感器交融等更多的感知方案。

从学术研究到应用落地,这 6 位计算机视觉大咖在 CV 专场上都讲了什么?

*云天励飞首席迷信家王孝宇

云天励飞首席迷信家王孝宇博士从其学术界到工业界的阅历分享了有关 AI 使用的重要看法。

王孝宇博士 2012 年便在 NEC 美国研讨院停止无人车、人脸辨认研讨,之后与李佳等人结合创立了 Snapchat 研讨院,专注研讨计算机视觉在手机终端上的使用。参加云天励飞后,次要聚焦 AI+ 新警务、AI+ 新社区、AI+ 新批发。

王孝宇博士以为,可以和人自在交流的强 AI 能够要到一百年后才干完成,眼下的人工智能带来的更多是根底功能的转变,拥有更少量的数据,树立更准确的模型,是目后人工智能的最次要停顿。

王孝宇博士以 Snapchat 与 Facebook 的竞争开展为例,讲述了一个观念,即技术开展的工夫节点至关重要,技回到当下汹涌澎湃的AI浪潮,正如所有的企业都被互联网化一样,所有的互联网企业都将 AI 化。而这些互联网企业中,也包含CSDN。同时,作为全球最大的中文IT社区,CSDN还有一个历史使命——为广大的互联网公司进行AI赋能。术不需求完全成熟才干落地,关键是提供用户认可的产品;技术使用需求找到正确的角度战争台;算法不等于技术,数据的重要性更为突出。

从学术研究到应用落地,这 6 位计算机视觉大咖在 CV 专场上都讲了什么?

*商汤科技结合开创人、港中文-商汤结合实验室主任林达华

香港中文大学资讯工程系助理教授、商汤科技结合开创人、港中文-商汤结合实验室主任林达华教授在计算机视觉专场上宣布了演讲。

商汤不断深受资本的喜爱,大家都很猎奇这家创业公司为何能有这么大的吸引力。林达华在现场表示,商汤能获得如今的成果,离不开其面前的香港中文大学多媒体实验室 18 年如一日的潜心技术研讨。

林达华提及海量数据、运用场景数据的积聚,以及 GPU 的开展、计算才能大幅度的跃升,提供了算法提高的根底,在这个根底之上带来了明天人工智能的成功和计算机视觉技术在众多的使用场景的落地。

同时林达华回忆了计算机视觉在过来几年的开展,他以为这项技术还有很多的事情可以做,还有很长的路需求走。他以为可以往提升计算机视觉技术的辨认效率、降低数据本钱、以及进步辨认质量三个方向努力。

现阶段,计算机视觉还是以集约型的办法在开展,依托堆积数据、堆积计算资源,取得高功能。但将来还是需求进一步停止优化,他分享了商汤在视频以及自动驾驶上的案例。此外,目前计算机视觉研讨还是高度依托人力停止标注,因而本钱十分高。

林达华以为可以适当换思绪,从数据、场景外面去寻求外面自身就蕴涵的一些标注信息。而针对计算机视觉辨认的质量提升方面,还有更多的技术能够性需求去探究。

从学术研究到应用落地,这 6 位计算机视觉大咖在 CV 专场上都讲了什么?