农企新闻网

Yann LeCun等最新研讨:如何对将来实例联系停止预测?

发布者:马熙明
导读翻译 | 王柯凝编辑 | 阿司匹林出品 | 人工智能头条(大众号ID:AI_Thinker)【人工智能头条导读】近日,Yann LeCun 等人宣布了一篇针对将来实例联系预测的论文。该论文提出了一种预测模型,可经过预测卷积特征来对将来实例联系停止预测。该算法有以下几大优势:可以处置模型输入大小不固定的状况,如对象检测和实例联系;不需求运用带有标志的视频序列停止训练,可以直接从未标志的数据中计算出两

翻译 | 王柯凝

编辑 | 阿司匹林出品 | 人工智能头条(大众号ID:AI_Thinker)

【人工智能头条导读】近日,Yann LeCun 等人宣布了一篇针对将来实例联系预测的论文。该论文提出了一种预测模型,可经过预测卷积特征来对将来实例联系停止预测。该算法有以下几大优势:

可以处置模型输入大小不固定的状况,如对象检测和实例联系;
不需求运用带有标志的视频序列停止训练,可以直接从未标志的数据中计算出两头的 CNN 特征映射图;
支持可生成多个场景解释的模型,如曲面法线、对象边界框和人体局部标签,而不需求针对这些义务设计适宜的编码器和损失函数。

Yann LeCun等最新研究:如何对未来实例分割进行预测?

以下内容是论文节选,人工智能头条编译:

▌简介

预测将来事情是完成智能行为的一个重要的先决条件,而视频预测就是其中一项义务。最近的研讨标明,在对将来帧停止语义联系时,在语义层面上的预测,比先预测 RGB 帧,然后将其分段愈加无效。本文思索了将来实例联系中更具应战性的一个成绩——将单个对象停止细分。为了处置各图像中不同数量的输入标签,我们在 Mask R-CNN 实例联系模型的固定尺寸卷积特征空间中开发了一个预测模型。

我们将 Mask R-CNN 框架的“探测头(detection head)”使用于预测特征,以发生将来帧的实例联系。实验标明,与基于光流(optical flow)的基线相比,该算法在功能上有明显提升。
图 1:预测将来 0.5 秒。 光流基线 (a) 和本文算法 (b) 的实例联系比拟。来自文献 [8] 的算法 (c) 和本文的实例语义联系算法 (d) 的语义联系比拟。实例建模显着进步了单个行人的联系精度。

我们的奉献如下:

引入将来实例预测这一新义务,在语义上比之前研讨的预期辨认义务更为丰厚。
基于预测将来帧的高维卷积神经网络特征的自监视算法,支持多种预期辨认义务。
实验后果标明我们的特征学习算法绝对于强光流基线有所改良。

▌预测将来实例联系的特征

本节扼要回忆了 Mask R-CNN 框架实例联系框架,然后引见了如何经过预测将来帧的外部 CNN 特征,将该框架用于预期辨认(anticipated recognition)。

运用 Mask R-CNN 停止实例联系

Mask R-CNN 模型次要由三个次要阶段组成。首先,运用一个 CNN 主干框架构造提取高层特征映射图。其次,候选区域生成网络 (RPN) 应用这些特征以包括实例边界框坐标的方式发生兴味区域(ROI)。候选边界框用作兴味区域层的输出,经过在每个边界框中拔出初级特征,为每个边界框获取固定大小的表示(不论大小)。 将每个兴味区域的特征输出到检测分支,并发生准确的边界框坐标、类别预测以及用于预测类别的固定二进制掩码。最初,在预测的边界框内将掩码拔出到图像分辨率中,并报告为预测类的一个实例联系。

图2 :左,自上而下的特征采样结合相反分辨率吧的自下而上的特征,从而取得的 FPN(feature pyramid network ) 算法主干框架中的特征。右,为了失掉将来实例联系,我们从 t-τ 到 t 帧提取 FPN 特征,并预测 t + 1 帧的 FPN 特征。

预测卷积特征

对处于不同 FPN 层级的特征停止训练,并将其作为共享“探测头(detection head)”的输出。但是,由于分辨率在不同层级上会发作改动,每层上的“空间-工夫”静态特性也会不同。 因而,我们提出了一种多尺度算法,对每一级采用独自的网络停止预测。每级网络都经过训练,彼此完全独立地任务。关于每一级,我们关注的是特征维度输出序列的特征。

▌实验评价

我们运用的是 Cityscapes 数据集,数据来自于汽车在驾驶进程中录制的城市环境视频,每个视频片段时长 1.8 秒,一共分为 2,975 个训练集,500 个验证集和 1,525 个测试集。

我们运用在 MS-COCO 数据集上事后训练好的的 Mask R-CNN 模型,并在 Cityscapes 数据集上以端到端的方式对其停止微调。

将来实例联系:表1为将来特征预测算法 (F2F) 的实例联系后果,并将其与 Oracle、Copy 和光流基线的功能做比拟。由表可知,F2F 算法效果最好,比最佳的中期基线进步了 74% 以上。

表1:Cityscapes val.数据集上实例联系的准确度

将来语义联系:我们发现,F2F 算法在 IoU 方面比一切的短期联系办法都有分明的改良,以61.2 %的成果排名第一。

表2: 不同算法在 Cityscapes val. 数据集上的挪动对象( 8 类)短期和中期语义联系表现。

图4显示,与 Warp 基线相比, F2F 算法可以与对象的实践规划更好地对齐,这标明该算法曾经学会了对场景和对象的静态建模,且效果比基线好。如预期所示,预测的掩码也比那些 S2S 算法愈加准确。

图4:对三个序列的中期预测(将来 0.5 秒)。

经过图5展现的示例,我们可以更好天文解,为什么在语义联系度量规范方面,F2F 和 Warp 基线之间的差别比实例联系度量规范要小很多。

图5:用 Warp 基线和 F2F 模型取得的中期预测的实例和语义联系。不精确的实例联系会招致准确的语义联系区域,请看图中的橙色矩形高光局部。

▌失败案例讨论

在图6(a) 的第一个例子中,由于后面的一切模型以为白色轿车完全被另一辆车遮挡,因而没有检测到。这是不可防止的一种状况,除非对象在较早的帧中可见,在这种状况下,临时记忆机制能够会防止不用要的错误。

在图 6(b) 中,卡车和行人的预测掩码在外形和地位上都不连接。用明白建模遮挡机制或答应以取得更分歧的预测。

最初,由于对象自身比拟模糊,某些运动和外形转换很难失掉精确的预测,如图 6(c)中的行人的腿部,关于这种状况,确切的姿态存在高度的不确定性。

论文地址:https://arxiv.org/abs/1803.11496