农企新闻网

港中文AAAI录用论文详解:ST-GCN 时空图卷积网络模型

发布者:何悦明
导读雷锋网 AI 科技评论按:第 32 届 AAAI 大会(AAAI 2018)日前在美国新奥尔良停止,于外地工夫 2 月 2 日至 7 日为人工智能研讨者们带来一场精彩的学术盛宴。AAAI 2018 往年共收到论文投稿 3808 篇,接纳论文 938 篇,接纳率约为 24.6 %。雷锋网 AI 科技评论作为继续关注顶级学术会议的雷锋网(大众号:雷锋网)学术频道,从 2016 年开端涉足、参与并报道国

雷锋网 AI 科技评论按:第 32 届 AAAI 大会(AAAI 2018)日前在美国新奥尔良停止,于外地工夫 2 月 2 日至 7 日为人工智能研讨者们带来一场精彩的学术盛宴。AAAI 2018 往年共收到论文投稿 3808 篇,接纳论文 938 篇,接纳率约为 24.6 %。

雷锋网 AI 科技评论作为继续关注顶级学术会议的雷锋网 (大众号:雷锋网) 学术频道,从 2016 年开端涉足、参与并报道国际学术会议,不只为读者带来一线精彩报道,更为人工智能相关范畴的学者们提供更多纵览全球学术会议的时机。假如读者们想理解雷锋网  AI 科技评论 2017 年走遍全球 11 个学术顶会所带来的精彩报道,欢送扫描二维码,理解 AI 科技评论的年度特辑。

港中文AAAI录用论文详解:ST-GCN 时空图卷积网络模型

本文为 AAAI 2018 录用论文「Spatial Temporal Graph Convolutional Networks for Skeleton based Action Recognition」作者向 AI 科技评论投递的解读稿件。

ST-GCN 时空图卷积网络模型

作者:颜思捷,熊元骏,林达华

文章链接: https://arxiv.org/abs/1801.07455

Github 代码: https://github.com/yysijie/st-gcn 

简介

近日,香港中大-商汤科技结合实验室的最新 AAAI 会谈论文「Spatial Temporal Graph Convolution Networks for Skeleton based Action Recognition」提出了一种新的 ST-GCN,即时空图卷积网络模型,用于处理基于人体骨架关键点的人类举措辨认成绩。该办法除了思绪新颖之外,在规范的举措辨认数据集上也获得了较大的功能提升。本文中我们将详细引见该论文中提出的办法,并引见一些方案中的进一步任务等。

  港中文AAAI录用论文详解:ST-GCN 时空图卷积网络模型

图 1 ST-GCN 的模型构造表示图

港中文AAAI录用论文详解:ST-GCN 时空图卷积网络模型

  港中文AAAI录用论文详解:ST-GCN 时空图卷积网络模型

图 2 对 ST-GCN 最末卷积层的呼应停止可视化的后果。(via GitHub )

基于骨架关键点的举措辨认

随着如 Microsoft Kinect、OpenPose 等人体姿势检测零碎的成熟,基于骨架关键点的人类举措辨认成了计算机视觉,特别是人类举措辨认研讨中的一个重要义务。该义务要求输出在延续的视频帧中检测到的人体骨架关键点序列,输入正在发作的人类举措类别。作为举措辨认零碎中的重要模态,基于骨架的举措辨认曾经展示出重要的适用价值与研讨价值。本论文正是针对这个义务提出了一种全新的深度学习模型,我们称之为「时空图卷积网络」(ST-GCN)。

构建时空图

ST-GCN 的根底是时空图构造。从骨架关键点序列构建时空图 (spatial-temporal graph) 的想法来源于我们对现有的骨架举措辨认办法以及图像辨认办法的察看。我们发现,现有的基于骨架的举措辨认办法中为了进步辨认精度少数引入了一些空间构造信息,包括相邻关键点的衔接关系或身体部件等(如手-手肘-肩膀的衔接关系)。

为了建模这些空间信息,现无方法经常运用 RNN 等序列模型来遍历相连的关键点。这就要求模型设计者定义一种遍历的规则,或许手动定义一些身体部件。我们指出,在这种设计中,很难失掉一个最优的遍历规则或许部件划分。但是,我们发现,关键点之间自然的衔接关系,其实构成了一个自然的图构造(graph)。那么,我们怎样可以高效地运用这些图构造来停止举措辨认呢?

在 ST-GCN 的任务中我们提出,可以从输出的关键点序列中树立一个时空图(spatial-temporal graph)。这个图构造依照如下的规则来构建。

1. 在每一帧外部,依照人体的自然骨架衔接关系结构空间图;

2. 在相邻两帧的相反关键点衔接起来,构成时序边;

3. 一切输出帧中关键点构成节点集(node set),步骤 1、2 中的一切边构成边集(edge set),即构成所需的时空图。

在依照上述规则失掉的时空图上,我们自然地保存了骨架关键点的空间信息,并使得关键点的运动轨迹(trajectory)以时序边的方式失掉表现。这使得我们可以设计一个一致的模型来完好地对这些信息停止建模。在图 3 中我们展现了一种时空图的构造。

港中文AAAI录用论文详解:ST-GCN 时空图卷积网络模型

图 3. NTU-RGBD 数据集上树立的时空图示例。

图构造上的卷积网络

为了在时空图上对人类举措的信息停止剖析,我们提出运用图卷积网络 (graph convolutional networks – GCN)。图上的神经网络模型是机器学习研讨的一个热点范畴。本文中运用的图卷积网络即是图上神经网络中的一种,其在网络剖析、文本分类等成绩都有成功使用。

在引见图卷积网络的概念之前,我们先来回忆图像上的卷积操作。在图像上,卷积操作运用一些固定大小的卷积核(filter/kernel)来扫描输出的图像。如图 3 所示,在每个扫描的中心地位像素左近,抽取一个与权重矩阵大小相反的像素矩阵,将这些像素上的特征向量按空间顺序拼接并与卷积核的参数向量做内积以失掉该地位的卷积输入值。在这里,「左近像素」可以定义为像素网格(grid)上的一个邻域(neighborhood)。将图像上的卷积操作推行就任意构造的图构造上时,我们异样可以定义任何一个节点的邻域,与一系列权重矩阵。这就是图卷积网络的根本思想。

但是,与图像不同的是,普通的图构造上假如运用邻接矩阵(Adjacency matrix)来定义邻域时,每个节点的邻域中节点的数量并不是固定的(思索补 0 时,图像上像素左近的像素是总是固定的)。这就使得我们我们很难确定: 1)需求运用的卷积核的参数维度;2)假如陈列权重矩阵与邻域内的节点以停止内积运算。在原始的 GCN 文章中,作者提出了将内积操作变为这样一个操作: 运用同一个向量与一切邻域内的点上的特征向量计算内积并将后果求均值。这使得: 1)卷积核的参数可以确定为一个固定长度的向量;2)不需求思索邻域内节点的顺序。 这个设计使得 GCN 可以在恣意衔接关系的图上运用,并在一些义务,如网络剖析和半监视学习中获得了较好的功能。

需求留意的是,图上神经网络除了下面提到基于图的空间构造的思绪之外,还有一种基于谱剖析 (spectral analysis) 的结构思绪。关于这一类办法,请见参考文献【2】。在 ST-GCN 中,我们也运用了基于图的空间构造的思绪。

时空图卷积网络与举措辨认

要将图卷积网络运用于基于骨架关键点的举措辨认中,我们还需求细心剖析这个义务的特点与难点,而不是直接将已无方法生搬硬凑。在本文中,我们指出了原始 GCN 的一个重要性质:该文中提出的卷积操作,本质上等价于先将邻域内一切节点的特征向量求均匀,再与卷积核的参数向量计算内积。这种均匀操作在骨架举措辨认会遇到一个重要成绩,即:它无法建模关键点之间绝对伴随着互联网和移动生活的日趋成熟,芝麻信用高分和良好的个人征信记录,不仅可以办理贷款、申请信用卡延伸你的财富,更能大大便利我们的生活。地位变化的状况,或所谓的「微分性质」(differential properties)。因而基于原始 GCN 的模型,辨认功能并不会很理想。

针对这个成绩,我们以为,要真正加强的模型的功能,必需跳出原始 GCN 的「均匀思想」。为理解决这个成绩,我们将了解了图像上的卷积操作了解为把中心像素相邻的像素集合(邻域集-neighbor set)依照空间顺序,如从左至右,从上至下,划分为一系列集合。 在图像的情形中,每个集合正好包括一个像素。这些集合就构成了邻域集的一个划分(partition)。卷积核的参数只与这个划分中的子集个数以及特征向量长度有关。那么在普通的图构造中,只需定义了某种划分规则(partitioning strategy),我们就也可以参照图像卷积来定义卷积核的参数。 相似的思想也使用在了如 deformable CNN 等近期任务中。

有了这个思想,我们就可以针对骨架举措辨认,乃至任何图卷积网络所面对的成绩来定义有针对性的卷积操作。而定义卷积操作就简化为了设计对应的划分规则。对一个存在 K 个子集的划分规则,卷积核的参数包括 K 个局部,每个局部参数数量与特征向量一样。依然以图像上的卷积为例,在一个窗口大小为 3x3 的卷积操作中,一个像素的邻域(窗口)依照空间顺序被划分为 9 个子集(左上,上,右上,左,中,右,左下,下,右下),每个子集包括一个像素。卷积核的参数包括 9 个局部,每个局部与特征图(feature map)的特征向量长度(number of channel)分歧。也就是说,图像卷积可以解释为普通图上卷积在规则网格图(regular grid)上的一种使用。

为了在时空图上停止骨架举措辨认,我们提出了三种空间的划分规则。

第一种称为 「独一划分」 (uni-labeling)。其与原始 GCN 相反,将节点的 1 邻域划分为一个子集。

第二种称为 「基于间隔的划分」 (distance partitioning),它将节点的 1 邻域分为两个子集,即节点自身子集与邻节点子集。引入基于间隔的划分使得我们可以剖析骨架关键点之间的微分性质。

进一步,我们针对举措辨认的特点,提出了第三种, 「空间构型划分」 (spatial configuration partitioning)。这种划分规则将节点的 1 邻域划分为 3 个子集,第一个子集为节点自身,第二个为空间地位上比本节点更接近整个骨架重心的邻节点集合,第三个则为更远离重心的邻节点集合。树立这种划分规则在依据运动剖析的研讨中对向心运动新生的改变世界的企业将会诞生,从而更好的服务整个人类世界,走向更高科技的智能化生活。与离心运动的定义。三种划分规则的表示图请见图 4。

  港中文AAAI录用论文详解:ST-GCN 时空图卷积网络模型

图 4,三种空间的划分规则表示图。

除了同一帧外部的空间划分规则,在工夫上,由于时序边构成了一个网格,我们可以直接运用相似于时序卷积(temporal convolution)的划分规则。最终,时空图上运用的划分规则失掉的子集集合会是空间划分与时序划分的笛卡尔积。

定义好了时空图上的卷积操作,我们就可以设计卷积网络了。为了展现 ST-GCN 的功能,我们直接从一个已有的时序卷积网络构造的根底上设计了文中用到的 ST-GCN 的网络构造。我们将一切时序卷积操作转为时空图的卷积操作,每一个卷积层的输入是一个时空图,图上每一个节点保有一个特征向量。最终,我们兼并一切节点上的特征并运用线性分类层停止举措分类。训练运用规范的 SoftMax 穿插熵损失函数停止监视。参数学习运用规范随机梯度下降算法(SGD)。

实验后果

我们在两特性质悬殊的骨架举措辨认数据集上停止了实验来验证 ST-GCN 的功能。

第一个数据集是 Kinetics-Skeleton,它来自于最近由 Google DeepMind 奉献的 Kinetics 视频人类举措辨认数据集。我们运用 OpenPose 姿势估量软件失掉视频中一切的骨架关键点信息来构成 Kinetics-Skeleton。该数据集共有约 30 万个视频与 400 类举措。

第二个数据集是 NTU-RGB+D,这是三维骨架举措辨认的规范测试数据集。它包括了用 Microsoft Kinect 采集的三维骨架序列。该数据集共有约 6 万个视频,60 个举措类别。这个数据集包括了两个测试协议,即跨扮演人(X-Sub)与跨视角(X-View)协议。在两个数据集的三个测试协议上,ST-GCN 相比现无方法在辨认精度上均有很大进步,详细后果可见表图 1。

  港中文AAAI录用论文详解:ST-GCN 时空图卷积网络模型

表图 1. 骨架举措辨认后果

除了失掉更好的功能,我们也详细剖析了三种划分规则对辨认精度的影响。如表 2 所示, 正如我们所希冀的,间隔划分与空间构型划分绝对于原始 GCN 运用的独一划分在精度上均有较大进步。这证明了引入新的划分规则的重要性。特别的,针对举措辨认义务设计的空间构型划分获得了最高的功能,并被最初使用于 ST-GCN 的相关实验中。

我们还将 ST-GCN 的最初一层神经元呼应停止了可视化(表 2)。 在后果中我们可以分明看到 ST-GCN 可以追踪并深化剖析在某个工夫段与举措最相关的身体局部的运动,这解释了为何 ST-GCN 绝对于其他不关注空间构造的现无方法能失掉很大的功能进步。

  港中文AAAI录用论文详解:ST-GCN 时空图卷积网络模型

表图 2,不同划分规则的影响

考虑与最初的话

回忆 ST-GCN 的提出,我们总结了两个重要的思想跨越。

  • 第一个是从将骨架序列了解为一帧帧的骨架演进为将整个视频了解为一个全体的时空图,这使得用一个一致的模型来剖析举措成为能够。

  • 第二个是从原始 GCN 的朴素思想演进为运用基于划分规则的卷积定义。这个思想使得我们可以逾越原始 GCN 并失掉宏大的功能提升,该思想也在 MoNet【3】的任务中被提及过。我们将其准绳化为 集合的划分操作。这也使得这个思想可以使用其他的剖析义务中。

在未来的任务中,我们方案运用 ST-GCN 的灵敏性来处置更多的图剖析成绩。同时,针对举措辨认义务,一个自然的演进就是在骨架关键点坐标的根底上引入视觉特征,如图像特征,乃至场景图(scene-graph)等,并将它们一致在 ST-GCN 的剖析框架下。我们的最终目的则是一特性能更高,更具有可解释性的一致的视频举措辨认模型。

相关文献:

【1】「Spatial Temporal Graph Convolutional Networks for Skeleton-based Action Recognition」, Sijie Yan, Yuanjun Xiong and Dahua Lin, AAAI 2018.

【2】「Convolutional neural networks on graphs with fast localized spectral filtering.」,Defferrard, et. al., NIPS 2016.

【3】 "Geometric deep learning on graphs and manifolds using mixture model CNNs.", Monti, Federico, et al. CVPR 2017.

头图via  commons.wikimedia

港中文AAAI录用论文详解:ST-GCN 时空图卷积网络模型