选自arXiv
机器之心编译
参与:路雪、黄小天、邱陆陆
近日,来自美国西南大学和美国信息迷信研讨所的研讨者结合发布论文《MoNet: Moments Embedding Network》,提出 Monet 网络,运用新型子矩阵平方根层,在双线性池化之前执行矩阵归一化,结合紧凑池化在不损害功能的前提下大幅降低维度,其功能优于 G^2DeNet。目前该论文已被 CVPR 2018 接纳。
将图像的部分表示嵌入成既具有代表性、又不受细微噪声影响的特征,是很多计算机视觉义务中的重要一步。在深度卷积神经网络(CNN)成功之前,研讨人员运用手动的延续独立步骤处理该成绩。典型包括 HOG、SIFT、协方差描绘子、VLAD、F聚焦消费升级、多维视频、家庭场景、数字营销、新零售等创新领域,为用户提供更多元、更前沿、更贴心的产品,满足用户日益多样化、个性化的需求。isher 向量和双线性池化。虽然 CNN 是端到端地训练的,但是它们可以被看作两局部:卷积层担任特征提取步骤,前面的全衔接层是编码步骤。如今已有多项研讨探究用卷积嵌入办法交换全衔接层,无论训练采用两段式还是端到端方式。
表 1. 不同神经网络的二阶统计信息比照。双线性 CNN(BCNN)仅具有二阶信息,没有运用矩阵归一化。改良后的 BCNN(iBCNN)和 G^2DeNet 都应用了矩阵归一化,但是都受制于高维度,由于它们需求计算一个很大的池化矩阵的平方根。本论文提出的 MoNet,在新型子矩阵平方根层(sub-matrix square-root layer)的协助下,可以直接归一化部分特征,同时,经过运用紧凑池化(compact pooling)替代全双线性池化,可以大幅降低最初的表示维度。
双线性 CNN 由 Lin et al. 初次提出,旨在池化不同空间地位的二阶统计信息。双线性池化已被证明在多项义务中有用,包括细粒度图像分类、大规模图像辨认、联系、视觉问答、人脸辨认和艺术作风重建。Wang et al. 提出,运用高斯嵌入层归入一阶信息。理论证明,归一化办法对这些 CNN 的功能也很重要。研讨者提出了两种归一化办法用于双线性池化矩阵:关于
其中
表示部分特征,一方面,由于 M 是正定对称矩阵(SPD),Ionescu et al. 提出运用矩阵对数(matrix-logarithm)来将 SPD 矩阵从黎曼盛行映射到欧氏空间,即
(
)
另一方面,Wang et al. 提出矩阵方幂(matrix-power)办法,将 M 非线性地扩展到
。
两项研讨中,矩阵方幂的功能和数值波动性都优于矩阵对数。此外,Li et al. 对矩阵方幂归一化在处理通用大规模图像辨认成绩上的优秀功能提供了实际支持。因而,本论文提出将矩阵方幂正则化整合进 Monet 架构中。
图 1. 论文提出的 Monet 架构图示。该架构运用论文提出的子矩阵平方根层,这使得在双线性池化之前执行矩阵归一化或进一步运用紧凑池化,在不损害功能的前提下大幅降低维度成为能够。
上述特征编码的一个重要缺陷是编码后特征的维度极高。由于张量相乘,最初的特征维度是
,其中 C 是最初一个卷积层的特征通道数。即便在 C 绝对较低的状况下,如 VGG16 中,C = 512,最初特征的维度也超越 260K。该成绩可经过随机投影(random projection)、张量速写(tensor sketching)和低秩属性来缓解。但是,由于矩阵方幂归一化层使用在池化矩阵 M 上,因而很难结合矩阵归一化和紧凑池化来同时到达更好的功能和更低的最初特征维度。
本论文运用同质填充部分特征(homogeneous padded local feature)的张量积重写了 G^2DeNet 的方程,使之对齐 BCNN 架构,以使高斯嵌入操作和双线性池化解耦合。本论文没有特别关注双线性池化矩阵 M,而是推导出子矩阵平方根层,对(非)同质部分特征上直接执行矩阵方幂归一化。在新型子矩阵平方根层的协助下,研讨者应用紧凑池化迫近张量积,同时使维度更低。
本论文的奉献有以下三方面:
- 应用实证矩矩阵(moment matrix)结合 G^2DeNet 和双线性池化 CNN,并将高斯嵌入与双线性池化解耦合。
- 提出新型子矩阵平方根层,在双线性池化层之前直接对特征执行归一化处置,从而应用紧凑池化降低表示的维度。
- 应用矩阵反向传达推导出子矩阵平方根层的梯度,这样 Monet 架构可以停止协同优化。
MoNet
Monet 网络的架构概述如上述图 1 所示。在本节中,我们将详述每个模块的设计。
关于输出图像 I,ReLU X 之后最初一个卷积层的输入由整个空间地位 i = 1, 2, . . . , n 上的部分特征 x_i 组成。接着,我们将其映射到齐次坐标,办法是添加额定的值为 1 的维度,并把一切元素除以
。之后,使用一个适当的子矩阵平方根归一化。最初,运用一个严密双线性池化层池化整个空间地位中一切 n 个特征,并在最初的全衔接层之行进行逐元素的平方根正则化和
归一化。
表 4:细粒度分类上的实验后果。双线性和 TS 辨别表征全双线性池化和 Tensor Sketch 严密池化。每栏中的最佳表现标为白色。
论文:MoNet: Moments Embedding Network
论文链接:https://arxiv.org/abs/1802.07303
近期双线性池化作为一种特征编码层被提出,可在深度网络的卷积层之后运用,提升在多个视觉义务中的表现。与传统的全局均匀池化层或全衔接层相比,双线性池化以平移不变式的方式搜集二阶信息。但是,这一池化层家族的一个严重弊端是其维度爆炸。为处理这一成绩,已探究了严密的近似池化办法。另外,最近效果标明,经过矩阵归一化来调整不波动的较高阶信息可取得明显的功能提升。但是,严密池化与矩阵归一化的结合至今未被探究。
在本论文中,我们经过实证矩矩阵结合了双线性池化层与全局高斯嵌入层。此外,我们提出一个全新的子矩阵平方根层,借助此层,可以直接归一化卷积层的输入,并经过现成的严密池化办法来缓解维度成绩。我们在三个普遍运用的细粒度分类数据集上停止了实验,实验标明,我们提出的 Monet 架构相比 G^2DeNet 架构有着更好的表现。与严密池化技术结合运用时,本办法可以用维度数降低了 96% 的编码特征取得可比的表现。