农企新闻网

Facebook 发布全身追踪技术,不只是脸,整个身体都可完成 AR 效果

发布者:丁原
导读日前,Facebook 人工智能摄像团队(AI Camera Team)正在研发各种计算机视觉技术和创新工具,协助人们更有创意地表达自我。比方,应用实时“作风转换”技术,你可以制造出“梵高风”的照片和视频。运用实时面部追踪技术,你可以完成“一键美妆”或许“换头术”,变化成各种卡通头像。那么,你有想过“换身术“吗?Facebook 团队的 AR 全身追踪技术或答应以帮你完成。雷锋网将该团队目前获得的

Facebook 公布全身追踪技术,不只是脸,整个身体都可实现 AR 效果

日前,Facebook 人工智能摄像团队(AI Camera Team)正在研发各种计算机视觉技术和创新工具,协助人们更有创意地表达自我。比方,应用实时“作风转换”技术,你可以制造出“梵高风”的照片和视频。运用实时面部追踪技术,你可以完成“一键美妆”或许“换头术”,变化成各种卡通头像。那么,你有想过“换身术“吗?Facebook 团队的 AR 全身追踪技术或答应以帮你完成。雷锋网将该团队目前获得的效果编译如下。

为了完成“换身术”,我们需求实时并精确地检测和追踪身体举措。这其实是一个十分具有应战性的成绩,由于身体姿态和举措变化会很大,辨认起来并不容易。一团体可以是坐着的,走着的或是跑动着的;人们能够穿着长外套或许短裤; 有时分人的身体还会被别人或物体阻挠。这些要素都大大添加了身体追踪零碎坚持稳健性的难度。

我们团队最近开发了一种新的技术,可以精确地检测到身体姿态,同时将人体从背景中联系出来。目前,我们的模型还处于研讨阶段,但这个模型的益处在于,它只要几兆大小,可以在智能手机上实时运转。不久之后,它还可以衍生出许多新的使用顺序,比方创立“全身面具”,运用手势来控制游戏,或许对人体停止“去辨认化(de-identifying)”。

MaskR-CNN2Go的架构

我们的人体检测和联系模型基于一个叫做“Mask R-CNN”的框架。这是一个复杂、灵敏且非常通用的对象检测和联系框架。它可以高效地检测图像中的对象,同时预测关键点的运转轨迹,并为每个对象生成一个联系掩码(segmentation mask)。Mask R-CNN 框架研讨取得了 ICCV 2017 年度最佳论文奖。为了在挪动设备上实时运转 Mask R-CNN 模型,Facebook 的 Camera,FAIR 和 AML我们也正在做着心目中属于未来的事业,那就是通过互联网金融创新,不断完善人与金融、货币之间的关系,让所有人都能享受到最好的金融服务 。 团队的研讨人员和工程师共同协作,构建了一个高效而轻量的框架模型:“Mask R-CNN2Go”。

Mask R-CNN2Go 模型由五个次要组件组成:

1、主干模型包括多个卷积层,并且生成输出图像的深层特征表征。

2、候选区域生成网络(RPN)以预定的比例和纵横比(锚点)生成候选对象。OI-Align 层从每个对象的边界框中提取其特征并将它们发送到探测端。

3、探测端口包括一组卷积层,池化层和全衔接层。它互联网思维,就是在(移动)互联网+、大数据、云计算等科技不断发展的背景下,对市场、用户、产品、企业价值链乃至对整个商业生态进行重新审视的思考方式。能预测每个候选框中的对象有多大能够是一团体体。探测头还可以改良边界框的坐标,将非极大抑制值的相邻框候选框停止分组,并为图像中的每团体生成最终的边界框。

4、应用每团体的边界框,我们运用第二个 ROI-Align 层来提取特征,这些特征来自于关键点端口和联系端口的输出。

5、关键点端口与联系端口具有类似的构造。它为身体上的每个预定关键点预测出一个掩码。并运用单一最大扫描来生成最终坐标。

Facebook 公布全身追踪技术,不只是脸,整个身体都可实现 AR 效果

一个针对挪动设备而优化的轻量级模型

与古代 GPU 效劳器不同,手机的算力和存储空间都非常无限。Mask R-CNN 最后的模型是基于 ResNet的,它太大而且太慢,无法在手机上运转。为理解决这个成绩,我们为挪动设备开发了一个十分优化而高效的模型架构。

我们运用了几种办法来减小模型的大小。首先,我们优化了卷积层的数量和每层的宽度,这也是我们在处置中最耗时的局部。为了确保拥有足够大的感受野,我们运用了包括 1×1,3×3 和 5×5 的内核大小的组合。另外,我们还运用权重剪枝算法来缩减模型。我们的最终模型只要几兆字节,但是十分精准。

模块化设计进步了计算速度

为了可以实时运转深度学习算法,我们运用并优化了我们的中心框架: 载有 NNPack 的 Caffe2,SNPE和 metal。经过运用挪动 CPU 和包括 NNPack,SNPE 和 metal 在内的 GPU 库,我们可以显着进步挪动计算的速度。并且,一切这些都是经过模块化设计完成的,并不需求改动模型的普通定义。因而,我们既可以取得较小的模型,又可以取得较快的运转工夫,同时防止了潜在的不兼容成绩。

Facebook AI 研发团队(FAIR)最近发布了 Mask R-CNN 研讨平台(Detectron)。我们开源了 Caffe2 运算符(GenerateProposalsOp,BBoxTransformOp,BoxWithNMSLimit 以及 RoIAlignOp)并提供了必要的模型转换代码,供研讨社区运用。

下一步是什么

开发挪动设备的计算机视觉模型是一项艰难的义务。挪动设备模型必需玲珑,疾速而精确,并且不需求少量内存。我们将持续探究新的模型架构,力图进一步提升模型效率。我们还将探究更合适挪动 GPU 和 DSP 的模型,让它们愈加节省电量和算力。

via  research.fb.com  雷锋网 (大众号:雷锋网) 雷锋网编译

Facebook 公布全身追踪技术,不只是脸,整个身体都可实现 AR 效果