农企新闻网

浙大博士生刘汉唐:带你回忆图像联系的经典算法

发布者:高阳远
导读雷锋网(大众号:雷锋网)AI科技评论按:图像语义联系是 AI 范畴中一个重要的分支,是机器视觉技术中关于图像了解的重要一环。近年的自动驾驶技术中,也需求用到这种技术。车载摄像头探查到图像,后台计算机可以自动将图像联系归类,以避让行人和车辆等妨碍。随着近些年深度学习的炽热,使得图像联系有了宏大的开展,本文为大家引见深度学习中图像联系的经典算法。在近期雷锋网 GAIR 大讲堂上,来自浙江大学的在读博士

雷锋网 (大众号:雷锋网) AI科技评论按 :图像语义联系是 AI 范畴中一个重要的分支,是机器视觉技术中关于图像了解的重要一环。近年的自动驾驶技术中,也需求用到这种技术。车载摄像头探查到图像,后台计算机可以自动将图像联系归类,以避让行人和车辆等妨碍。随着近些年深度学习的炽热,使得图像联系有了宏大的开展,本文为大家引见深度学习中图像联系的经典算法。

在近期雷锋网 GAIR 大讲堂上,来自浙江大学的在读博士生刘汉唐为等候在直播间的同窗们做了一场主题为「图像联系的经典算法」的技术分享,本文依据直播分享内容整理而成,同窗们假如对嘉宾所讲的内容感兴味还可以在 AI 慕课学院观看直播回放。(技术细节引荐观看 视频回放 )

刘汉唐,浙江大学计算机系博士生在读,阿里巴巴 iDST 实习生。研讨方向是计算机视觉、深度学习。团体大众号是:贾维斯的日常(jarvisdaily)。

分享提纲

  1. 图像联系的成绩定义,以及在实践场景中的使用样例

  2. 全卷积网络

  3. 双线性上采样

  4. 特征金字塔

  5. Mask-RCNN

大家好,我是浙江大学在读博士生刘汉唐,目前在阿里巴巴 iDST 实习。接上去的分享首先会为大家引见图像联系详细是做什么的,图像联系有哪些使用场景以及做图像联系实验常常用到的几个数据集。

最初再解说图像联系的几个办法。分为两个局部,第一局部是传统视觉的图联系算法,虽然如今很少用,但自以为算法比拟优美。第二局部是深度学习算法,会引见最近几年盛行的经典技巧。

什么是图像联系?

图像联系就是预测图像中每一个像素所属的类别或许物体。图像联系有两个子成绩,一个是只预测类别层面的联系,对每个像素标出一个地位。第二个是区分不同物体的集体。

浙大博士生刘汉唐:带你回顾图像分割的经典算法

使用场景,比方自动驾驶,3D 地图重建,丑化图片,人脸建模等等。

最常用的数据集

次要引见三个:Pascal VOC;CityScapes;MSCOCO。

第一个是 Pascal VOC 数据集

浙大博士生刘汉唐:带你回顾图像分割的经典算法

这是一个比拟老牌的数据集,它提供 20 个类别,包括,人,车等。有 6929 张标注图片,提供了类别层面的标注和集体层面的标注,也就是说既可以做语义联系,只区分是不是车;也可以做集体联系,区分有几辆车,把不同的车标志出来。

第二个是CityScapes数据集

浙大博士生刘汉唐:带你回顾图像分割的经典算法

次要面向路途驾驶场景,它有 30 个精密的类别。其中有 5000 张图片停止了精密标注,准确到像素级别。还有 20000 张图片有粗糙的标注。它也可以提供语义层面联系和集体层面联系。

第三个是MS COCO数据集

浙大博士生刘汉唐:带你回顾图像分割的经典算法

这是目前为止有语义联系的最大数据集,提供的类别有 80 类,有超越 33 万张图片,其中 20 万张有标注,整个数据集中集体的数目超越 150 万个,最新的一些论文都会在 MSCOCO 数据集上做实验,由于它的难度最大,应战新最高。

传统的图切割

图切割就是移除一些边,使得两个子图不相连;图切割的目的是,找到一个切割,使得移除边的和权重最小。

浙大博士生刘汉唐:带你回顾图像分割的经典算法

图切割的优点和缺陷

优点是联系效果还不错,并且是一种普适性的框架 ,合适各种特征。缺陷是工夫复杂度和空间复杂度较高,需求事前选取联系块儿的数目。

图切割的失败案列

浙大博士生刘汉唐:带你回顾图像分割的经典算法

为了克制这个失败,有一篇论文提出了 Normalized Cut。它是在图联系中参加权重参数 Volume。Volume(A) 是 A 中一切边的权重之和。这种办法均衡了每一个子图的大小。

浙大博士生刘汉唐:带你回顾图像分割的经典算法

深度学习算法

第一篇比拟成功用神经网络做图像联系的论文是 Fully Convolutional Networks (以下简称为 FCN)。

传统神经网络做分类的步骤是,首先是一个图像出去之后经过多层卷积失掉降维之后的特征图,这个特征图经过全衔接层变成一个分类器,最初输入一个类别的向量,这就是分类的后果。

而 FCN 是把一切的全衔接层换成卷基层,原来只能输入一个类别分类的网络可以在特征图的每一个像素输入一个分类后果。这样就把分类的向量,变成了一个分类的特征图。

浙大博士生刘汉唐:带你回顾图像分割的经典算法

为了能让分类的特征图恢复到原图的大小,采用了上采样层。详细细节可观看视频回放。

FCN的构造图

浙大博士生刘汉唐:带你回顾图像分割的经典算法

上面引见一下怎样停止图片缩小操作的。

这里有两个概念,第一个概念叫反卷积层(Deconvolution);第二个概念叫双线性差值上采样(Bilinear Upsampling)。

这里的「反卷积」其实不是真正的卷积的逆运算,用 Transposed Convolution 替代比拟适宜,但原论文中用的是 Deconvolution,我们上面还是用这个词,它可以等效于普通卷积。它的次要目的就是完成上采样。

浙大博士生刘汉唐:带你回顾图像分割的经典算法

反卷积详细是怎样计算的,详细进程可到AI慕课学院收费观看 视频回放 。

上面讲一下Padding和Stride。

Padding和Stride实践指的是普通卷积,而不是反卷积等效的普通卷积。

浙大博士生刘汉唐:带你回顾图像分割的经典算法

双线性上采样差

浙大博士生刘汉唐:带你回顾图像分割的经典算法

双线性上采样差值的三个用处:用作初始化反卷积的权重;不必反卷积,运用上卷积+卷积;只运用上采样。

上面引见收缩卷积或带洞卷积(Dilated Convolution )

它的用处可以使特征图视野变大,但不添加计算量,关于图像联系的益处,更利于提取全局信息,这样就使得联系精确率添加很多。

浙大博士生刘汉唐:带你回顾图像分割的经典算法

特征金字塔(Feature Pyramid)

有以下几种特征金字塔

浙大博士生刘汉唐:带你回顾图像分割的经典算法

特征金字塔网络

浙大博士生刘汉唐:带你回顾图像分割的经典算法

Pyramid Pooling 

浙大博士生刘汉唐:带你回顾图像分割的经典算法

后面的是在不同的尺度上提取特征,而这个是把特征提取之后pooling到不同的大小。

Mask-RCNN的特点

浙大博士生刘汉唐:带你回顾图像分割的经典算法

第一个特点它是多分支输入的。它同时输入物体的类别,bounding box和Mask。

第二个特点是它运用了Binary Mask。之前神经网络都是运用多类Mask,而它只需求判别物体在哪个中央。

最初是RoiAlign层。能比拟准确地把物体的地位对应到特征图的地位上。

详细解说细节请观看收费的直播 回放视频 。

Rol Pooling 与Roi Align的比拟

浙大博士生刘汉唐:带你回顾图像分割的经典算法

浙大博士生刘汉唐:带你回顾图像分割的经典算法

雷锋网AI 慕课学院提供本次直播回放视频,点击链接中转:http://www.mooc.ai/course/414/learn#lesson/2266。

浙大博士生刘汉唐:带你回顾图像分割的经典算法