全球计算机视觉顶会 CVPR 2018(Conference on Computer Vision and Pattern Recognition,即 IEEE 国际计算机视觉与形式辨认会议)将于 6 月 18 日至 22 日在美国盐湖城举行。作为大会钻石资助商,旷视科技 Face++研讨院也将在孙剑博士的率领下重磅列席此次盛会, 本次旷视共有 1 篇 spotlight 论文,7 篇 poster 论文,在雷锋网 (大众号:雷锋网) 旗下学术频道 AI 科技评论旗下数据库项目 「AI影响因子」 中有突出表现。 而在盛会召开之前,旷视将针对 CVPR 2018 收录论文集中停止系列解读。本次第 3 篇主题是可优化处理人群密集遮挡成绩的 RepLoss。
论文链接: https://arxiv.org/abs/1711.07752
目录
导语
RepLoss 设计思想
密集遮挡的影响
RepLoss 计算办法
吸引项
排挤项(RepGT)
排挤项(RepBox)
RepLoss 实验后果
结论
参考文献
导语
人群检测是计算机视觉技术开展不可绕过的关键一环,其中密集遮挡(crowd occlusion)成绩是最具应战性的成绩之一。旷视科技 Face++从技术底层的层面提出一种全新的人群检测定位模型 Repulsion Loss(RepLoss),在相当水平上优化处理了这一难题。底层技术创新的适用范围异常普遍,这意味着绝大少数与人群检测相关的产品使用皆可完成不同水平的提升,从基本上推进安防监控、自动驾驶、无人批发、智慧城市的落地和开展。此外,人群定位技术 RepLoss 的检测对象并不只限于人,还可迁移泛化至普通物体检测,其底层创新驱动力的涉及范围非常普遍,有助于机器之眼打造一团体、物、字、车的检测矩阵,进一步看清楚、看明白这个世界。
RepLoss 设计思想
检测人群之中的行人仍然是一个充溢应战性的成绩,由于在理想场景中行人常常聚集成群,互相遮挡。普通而言,物体遮挡成绩可以分为类内遮挡和类间遮挡两种状况。类间遮挡发生于扎堆的同类物体,也被称为密集遮挡(crowd occlusion)。外行人检测中,密集遮挡在一切遮挡成绩中占比最大,严重影响着行人检测器的功能。
密集遮挡的次要影响表如今明显添加了行人定位的难度。比方,当目的行人 T 被行人 B 遮挡之时,由于两者外观特征类似,检测器很能够无法停止定位。从而本应该框定 T 的边界框转而框定 B,招致定位不精确。更蹩脚的是,由于非极大值抑制(non-maximum suppression/NMS)需求进一步处置次要的检测后果,从 T 移走的边界框能够会被 B 的预测框抑制,进而形成 T 漏检。即,人群遮挡使得检测器对 NMS 阈值很敏感:较高的阈值会带来更多的误检(false positives),较低的阈值则形成更多的漏检(missed detection)。这会让大少数实例联系框架生效,由于它们也需求准确的检测后果。因而,如何准确地定位人群之中的每个行人是检测器最为关键的成绩之一。
图 1:RepLoss 图示。
在以后最优的检测框架中,边界框回归技术常用来定位物体,其中回归器被训练用来减少 proposal 和 groundtruth box 之间的差距(经过一些间隔度量停止测量,比方 Smooth_L1 或许 IoU)。虽然如此,现无方法只需求 proposal 接近其指定目的,并不思索周遭的物体。如图 1 所示,在规范的边界框回归损失中,当预测框移向周遭物体时,对其并没有额定的惩罚。这难免使人想象:假如要检测人群之中的一个目的,能否应该思索其周遭物体的定位?
在磁极互相排挤吸引的启示下,本文提出一种全新的定位技术,称之为 Repulsion Loss(RepLoss),经过它,每一个 proposal 不只会接近其指定目的 T,还会远离其他 groundtruth 物体以及指定目的不是 T 的其他 proposal。如图 1 所示,由于与周遭的非目的物体堆叠,白色边界框移向 B 将遭到额定的惩罚。因而,RepLoss 可以无效避免预测边界框移向相邻的堆叠物体,提升检测器在人群场景中的鲁棒性。
密集遮挡的影响
本节将借助实验讨论以后最优的行人检测器如何遭到密集遮挡(crowd occlusion)的影响,愈加深化天文解密集遮挡成绩。密集遮挡次要会形成两个方面的成绩,漏检和误检,上面会经过两个图示辨别作出解释,其中基线检测器是针对行人检测优化的 Faster R-CNN,并运用新型行人检测数据集 CityPersons。
图 3:基线与 RepGT 的错误检测剖析。
图 3(a) 是不同检测分值下在 reasonable-crowd 子集上的漏检数量,红线表示基线的 groundtruth 行人漏检数量。在理想使用中,只思索带有高相信度的预测边界框,曲线左端的高漏检量意味着离实践使用还很远。图 3(b) 表示由密集遮挡招致的误检占全部误检的比例,红线标明基线的这一比例大约在 20% 左右。如图 3 红、蓝线比照所示,RepGT 损失辨别无效降低了由密集遮挡形成的漏检和误检数量。
图 4:错误检测的可视化实例。红框表示由密集遮挡惹起的误检。
如图 4 所示,绿框是正确的预测边界框,而红框是由密集遮挡形成的误检,并给出了检测器的相信值。假如预测框细微或明显移向相邻的非目的 groundtruth 物体(比方右上图),或许框定若干个彼此遮挡物体的堆叠局部(比方右下图),则常常呈现检测错误。此外,密集遮挡惹起的检测错误通常有着较高的相信度,从而形成高排名的误检。这标明为进步检测器在密集场景中的鲁棒性,需求在执行边界框回归时有更具判别力的损失。上面是另一个可视化实例:
图 9:基线与 RepLoss 的比照。蓝框表示误检,红框表示漏检。灰色虚线上、下两局部的第一行是基线的预测后果;第二行是添加 RepLoss 之后的预测后果。
经过剖析错误检测标明,密集遮挡对行人检测器的影响令人吃惊,不只是漏检的次要来源,还在添加定位难度的同时形成了更多的误检。正是为处理上述成绩,提升行人检测器在密集场景中的鲁棒性,RepLoss 被提了出来。
RepLoss 计算办法
本节将详述如何计算 RepLoss。遭到磁石属性的启示,RepLoss 包括 3 个组件,表示为:
其中 L_Attr 是吸引项,需求预测框接近其指定目的;L_RepGT 和 L_RepBox 是排挤项,辨别需求预测框远离周遭其他的 groundtruth 物体和其他指定目的不同的预测框。系数 α 和 β 充任权重以均衡辅佐损失。
为简明起见,上面仅思索两类检测,假定一切的 groundtruth 物体属于同一类别。辨别使 P = (l_P,t_P,w_P,h_P) 和 G = (l_G, t_G, w_G, h_G) 为 proposal 边界框和 groundtruth 边界框,并辨别由它们的左上点坐标及其高度、宽度表示。P_+ = {P} 是一切 positive proposal 的集合(那些和至多一个 groundtruth box 有高 IoU 的被视为正样本,反之为负样本);G = {G} 是一张图片中一切 groudtruth box 的集合。
吸引项
本文沿用 Smooth_L1 结构吸引项。给定一个 proposal P ∈ P_+,把具有极大值 IoU 的 groundtruth box 作为其指定目的:G^P_Attr = arg max_G∈G IoU(G,P)。B^P 是回归自 proposal P 的预测框。由此吸引损失可计算为:
排挤项(RepGT)
RepGT 损失旨在使 proposal 遭到相邻的非目的 groundtruth 物体的排挤。给定一个 proposal P ∈ P_+,它的排挤 groundtruth 物体被定义为除了其指定目的之外带有最大 IoU 区域的 groundtruth 物体。受 IoU 损失的启示,RepGT 损失被计算以惩罚 B^P 和 G^P_Rep 之间的堆叠(由 IoG 定义)。IoG(B, G) ∈ [0, 1],从而 RepGT 损失可写为:
其中 Smooth_ln 是一个在区间 (0, 1) 延续可微分的平滑 ln 函数,σ ∈ [0, 1) 是调理 RepLoss 对异常值的敏感度的平滑参数。由此可见,proposal 越倾向于与非目的 groundtruth 物体堆叠,RepGT 损失对边界框回归器的惩罚就越大,从而无效避免边界框移向相邻的非目的物体。
排挤项(RepBox)
NMS 是绝大少数检测框架中不可或缺的后处置步骤,为降低检测器对 NMS 的敏感度,作者接着提出 RepBox 损失,意在排挤来自不同指定目的的 proposal。RepBox 损失可计算为:
从上式可以看到,为最小化 RepBox 损失,指定目的不同的两个预测框之间的 IoU 区域需求较小。这意味着 RepBox 损失可以降低 NMS 之后不同回归目的的边界框兼并为一的概率,使得检测器在密集场景中更鲁棒。
RepLoss 实验后果
本节将直接给出 RepLoss 在数据集 CityPersons 和 Caltech-USA 上的评价后果,包括在 CityPersons 上辨别评价和剖析 RepGT 损失 和 RepBox 损失;在 CityPersons 和 Caltech-USA 上把 RepLoss 与以后最优的办法绝对比。实验设置和完成细节从略,理解更多请参见原论文。
表 3:在 CityPersons 上评价的 RepLoss 行人检测后果。模型在训练集上训练,并在验证集上测试。ResNet-50 是 backbone。最佳的 3 个后果辨别标为红、蓝、绿色。
表 4:在新正文中评价的 Calech-USA 测试集 (reasonable) 后果。在 0.5 IoU 阈值下,作者进一步在强基线上把以后最优推进到明显的 4.0 MR^−2。当把 IoU 阈值增至 0.75,继续的涨点证明了 RepLoss 的无效性。
图 7:在基线和 RepBox 的 NMS 之前的预测框可视化比照。RepBox 后果中两个相邻的 groundtruth 之间的预测较少,模型输入的边界框的散布愈加明晰。
聚集了全世界身经百战的最优秀的创业导师,汇集了全世界各国最优质的产业资源,召唤全球未来的商业领袖。
图 10:更多的 CityPersons 数据集检测实例。绿框中是预测的行人,其分值 ([0, 1.0]) 大于 0.8。
结论
RepLoss 专为行人检测精心设计,尤其提升了密集场景的检测功能,其次要想法在于目的物体的吸引损失并缺乏以训练最优的检测器,来自周遭物体的排挤损失异样至关重要。
为充沛发扬排挤损失的潜能,本文提出 RepGT 和 RepBox,并在盛行数据集 CityPersons 和 Caltech-USA 上获得了以后最优程度。特别是,本文后果在未运用像素正文的状况下优于运用像素正文的先前最佳后果大约 2%。详细的实验后果比照证明了 RepLoss 在大幅提升遮挡场景下检测精度方面的价值,并且普通的物体检测 (PASCAL VOC) 后果进一步标明了其无效性。作者希望 RepLoss 在诸多其他物体检测义务中也有更为普遍的使用。
参考文献
[1]Dollar, C. Wojek, B. Schiele, and P. Perona. Pedestrian detection: A benchmark. In IEEE Computer Vision and Pattern Recognition, 2009.
[2]K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In IEEE Conference on Computer Vision and Pattern Recognition, 2016.
[3]J. Mao, T. Xiao, Y. Jiang, and Z. Cao. What can help pedestrian detection? In IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[4]S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towardsreal-time object detection with region proposal networks. In NIPS, 2015.
[5]J. Yu, Y. Jiang, Z. Wang, Z. Cao, and T. Huang. Unitbox: An advanced object detection network. In Proceedings of the 2016 ACM on Multimedia Conference.
[6]S. Zhang, R. Benenson, and B. Schiele. Citypersons: A diverse dataset for pedestrian detection. In IEEE Conference on Computer Vision and Pattern Recognition, 2017.
雷锋网版权文章,未经受权制止转载。概况见。