机器感知、三维点云如何与深度学习擦出火花？

2025-08-04 13:10:00

导读雷锋网 AI 科技评论按：ICRA 2018 正于近期在澳大利亚布里斯班举行。ICRA 全称为「IEEE International Conference on Robotics and Automation」（机器人与自动化会议），是机器人技术范畴最有影响力的国际学术会议之一。雷锋网 AI 科技评论在去年曾赴新加坡参与 ICRA 2017，并带回交融产业与学术的专题丰厚报道。概况可理解去年的 I

雷锋网 AI 科技评论按：ICRA 2018 正于近期在澳大利亚布里斯班举行。ICRA 全称为「IEEE International Conference on Robotics and Automation」（机器人与自动化会议），是机器人技术范畴最有影响力的国际学术会议之一。雷锋网 AI 科技评论在去年曾赴新加坡参与 ICRA 2017，并带回交融产业与学术的专题丰厚报道。概况可理解去年的 ICRA 2017 大会专题内容： https://www.leiphone.com/special/289/201705/592e37165105d.html

依据学术会议常规，Workshops & Tutorials 将在大会正会前后召开。作为可以给予与会者微观启迪及学术纵览体验的一项重要议程，继续一整天的 Workshops & Tutorials 自然早早吸引了不少学者前来注册参会。

往年 ICRA 2018 共有 1 个全天 Tutorials 及 22 个全天 Workshops；此外还有 3 个半天 Tutorials 及 9 个全天 Workshops。雷锋网 AI 科技评论从议程停止不完全统计，机器感知与控制依然是 ICRA 2018 的关注重点。一切的 Workshops & Tutorials 中有近一半是围绕两个议程的讨论，而基于理想成绩的使用讨论（包括品德伦理）也有 5 个相关议题。此外，仿活力器人、人机交互、自主零碎构建等话题也是比拟抢手的关注方向。

雷锋网 (大众号：雷锋网) AI 科技评论选取了其中几个研讨内容做复杂分享，更详细的研讨内容可参考大会官网中关于 Workshops & Tutorials 的引见： http://icra2018.org/accepted-workshops-tutorials/

机器感知、三维点云如何与深度学习擦出火花？

由谷歌大脑两位女研讨员 Anelia Angelova 和 Jana Kosecka 组织的 Tutorial「Deep Learning for Robotics Perception」从以后十分盛行的一些深度学习网络动手，分享和讨论了机器如何借助机器学习更好感知四周的世界，并依据实践义务做出愈加精准的反响。

值得一提的是，现场还装备了手语翻译人员，可以说是十分兽性化了。

目前机器人需求处置多种感应形式，包括「是什么？在哪里？怎样样？」等成绩，这就触及到十分多的成绩，比方三维重建，视觉测距、对象分类、人类/物体的姿势估量、语义联系、婚配，辨认和本地化等。也就是说，机器人需求在这个进程中学会如何自动感知和控制。因而，深度学习的盛行也为探究这一成绩提供了一种值得自创和学习的办法。

最开端，机器人研讨者采用神经网络的初衷是为了停止分类特征提取，但目前随着深度学习的普遍使用，数据驱动形式可以构建弱小的端到端训练办法，如今曾经可以拓展到更多的感知形式和视频检测上，并进一步构建神经网络架构工程在无监视或自我监视的训练方式中。

在 Tutorial 里，Angelova 先引见了从视觉范畴角度上，机器人在感知范畴是如何做探究的。从视觉角度来看，分类与检测是目前机器人学最次要的两个相关成绩。

从分类动手，以 AlexNet、Inception、ResNet、DenseNet 等为代表的深度神经网络，在机器人范畴又可分为物体分类及场景辨认两种义务；
从检测动手，R-CNN、Fast R-CNN、Faster R-CNN 为代表的深度神经网络走的是「Two-stage approaches」，即 Bounding box + classification 的办法；而以 YOLO、SSD、Retinanet 为代表的网络，采用的是「Single-stage approaches」，即 Direct「regression」to locations and classification 的办法。

基于深度神经网络的精确性及可行性，我们需求一定深度神经网络关于机器人在感知上的探究。目前已知的一些网络体系架构也在疾速开展，经过引入架构，规范的计算机视觉算法可以比拟顺畅地使用于机器人技术上。

随后，基于姿势估量和婚配、场景联系和密集预测、抓取及从视频中学习等四个方面，两位迷信家展现了一些详细的研讨效果及使用场景。

在三维点云及即时检测、多义务检测上，深度学习对机器人的研讨也有着不少先进效果。Binh-Son Hua1、Duc Thanh Nguyen、Lap-Fai Yu、Sai-Kit Yeung1 及 Daniela Rus 组织了一个名为「Creating Annotated Scene Meshes for Training and Testing Robot Systems」的 Workshop，针对 3D 场景重建和标注的相关停顿停止了引见和讨论。与较为容易获取且数据量庞大的 2D 图像数据集相比，从理想世界中捕捉，重建和正文 3D 场景并非一件容易的事情。

受限于点云自身的无序性，不同设备在不同地位扫描物体所取得的数据不尽相反，数据难以经过端到端办法来处置；点云自身也面临数据缺失的成绩，比方被扫描模型往往会被遮挡。

针对无序点云数据的深度学习办法研讨，目行进展还绝对迟缓。在 CVPR 2017 上，斯坦福大学提出的 PointNet 是第一种直接处置无序点云数据的深度神经网络。团队经过在每个点训练一个 MLP，把每个点投到一个 1024 维空间上，并采用了 Max Pooling 层做为次要的对称函数，比拟好地处理了顺序成绩。随后斯坦福大学在 NIPS 2017 上的 Pointnet++，对 PointNet 做出了更多改良。

在本次 Workshop 中，学者们还讨论了数据捕捉，实时和离线重建，自动和交互式正文，质量控制和基准测量目标等目前的热点成绩。

组织者之一的 Daniela Rus 是 MIT 的 CSAIL 主任，在 2016 年的 CCF-GAIR 大会上，Daniela Rus 教授已经作为大会嘉宾受邀做主题演讲。她曾表示，虽然深度学习曾经获得了十分明显的效果，但研讨者还面临深度学习的三个应战。首先是深度学习需求少量的训练数据；其次是深度学习并非永远不会犯错；再者是它的可解释性。

不管是机器感知，或是以三维点云为代表的技术，在应用深度学习探究的进程中，必定还是会遇到异样的成绩。而在深度学习与机器人学的结合中，人与机器人的互相协作与共同提高，也将成为每一年 ICRA 孜孜不倦的目的。「人类和机器人各有擅长的事情，我置信将来会是一团体与机器共同协作，互补对方短板的社会，我们也需求努力去发明这种社会。」

。

免责声明：本文章由会员“马楠林”发布如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

标签：