中科院自动化所智能感知与计算研讨中心11篇论文被CVPR接纳

2025-08-15 04:16:16

导读雷锋网(大众号：雷锋网)AI 科技评论按：本文作者郭瑞娥，首发于中科院自动化所「智能感知与计算研讨中心」微信大众号，AI 科技评论获受权转载。CVPR 是计算机视觉、形式辨认和人工智能范畴国际顶级会议，2018 年 6 月 18-22 日将在美国盐湖城召开，届时 AI 科技评论也会在现场带来一线报道。不管你是论文录用作者，还是行将参会的企业机构，欢送联络 AI 科技评论小编（微信号：aitechr

雷锋网 (大众号：雷锋网) AI 科技评论按：本文作者郭瑞娥，首发于中科院自动化所「智能感知与计算研讨中心」微信大众号，AI 科技评论获受权转载。

CVPR 是计算机视觉、形式辨认和人工智能范畴国际顶级会议，2018 年 6 月 18-22 日将在美国盐湖城召开，届时 AI 科技评论也会在现场带来一线报道。不管你是论文录用作者，还是行将参会的企业机构，欢送联络 AI 科技评论小编（微信号：aitechreview）报道/协作哟。

智能感知与计算研讨中心为中科院自动化所独立建制的科研部门，努力于研讨泛在智能感知实际与技术以及与之相伴的海量感知数据的智能剖析与处置。智能感知与计算研讨中心在往年的 CVPR 2018 上共有 11 篇论文被接纳，再次创下历史新高。

论文 1 Dynamic Feature Learning for Partial Face Recognition

Lingxiao He, Haiqing Li, Qi Zhang, Zhenan Sun

在视频监控，挪动手机等场景中，局部人脸辨认是一个十分重要的义务。但是，很少无方法研讨局部人脸块辨认。我们提出一种静态特征婚配办法来处理局部人脸辨认成绩，它结合全卷积网络和稀疏表达分类。首先，应用全卷积网络提取 Gallery 和 Probe 的特征图；其次，应用一个大小滑动窗口把 Gallery 的特征图分解为与 Probe 特征图大小相反的子特征图，进而静态特征字典；最初，应用稀疏表达分类来婚配 Probe 特征图与静态特征字典的类似度。基于静态特征婚配办法，我们提出了滑动损失来优化全卷积网络。该损失减小类内变化，添加了类间变化，从而进步静态特征婚配的功能。相比于其他局部人脸辨认办法，我本着网络面前人人平等的原则，提倡所有人共同协作，编写一部完整而完善的百科全书，让知识在一定的技术规则和文化脉络下得以不断组合和拓展。们提出的静态婚配办法获得很好的功能。

中科院自动化所智能感知与计算研究中心11篇论文被CVPR接收

静态特征婚配的局部人脸辨认框架

论文 2 Deep Spatial Feature Reconstruction for Partial Person Re-identification: Freestyle Approach

Lingxiao He, Jian Liang, Haiqing Li, Zhenan Sun

局部行人再辨认是一个十分重要并且具有应战性的成绩。在无约束环境中，行人容易被遮挡，有姿势和视角变化，所以有时分只要局部可见的行人图像可用于辨认。但是，很少有研讨提出一种可以辨认局部行人的办法。我们提出了一种疾速且准确的办法来处置局部行人再辨认的成绩。提出的办法应用全卷积网络抽取与输出图像尺寸绝对应的空域特征图，这样输出的图像没有尺寸约束。为了婚配一对不同尺寸大小的行人图像，我们提出了一种不需求行人对齐的办法：深度空域特征重建。特别地，我们自创字典学习中重建误差来计算不同的空域特征图的类似度。依照这种婚配方式，我们应用端到端学习办法增大来自于同一团体的图像对的类似度，反之亦然。由此可见，我们办法不需求对齐，对输出图像尺寸没无限制。我们在 Partial REID，Partial iLIDS 和 Market1501 上获得很好的效果。

中科院自动化所智能感知与计算研究中心11篇论文被CVPR接收

深度空域特征重建

论文 3 Adversarially Occluded Samples For Improving Generalization of Person Re-identification Models

Houjing Huang, Dangwei Li, ZhangZhang, Kaiqi Huang

行人再辨认（ReID）是跨摄像机行人检索义务，由于存在光照变化、视角变化、遮挡等复杂要素，目前的模型往往在训练阶段到达了很高的精确率，但是测试阶段的功能却不尽人意。为了进步模型的泛化功能，我们提出了一种特殊的样原本扩大数据集：对立式遮挡样本。

整个办法流程如下：（1）依照常用的办法训练一个 ReID 模型；（2）经过网络可视化的办法找出模型在辨认训练样本时所关注的区域，对这些区域停止（局部）遮挡就可以发生新的样本，同时我们坚持这些样本原有的类别标签；（3）最初，把新的样本参加到原始数据集中，依照之前的办法训练一个新的模型。这种样本不只模仿了理想中的遮挡状况，而且关于模型来说是困难样本，可以给模型的训练提供动量，从而跳出部分极小点，增加模型的过拟合。实验发现，原始的 ReID 模型辨认训练样本时只关注一些部分的身体区域，参加新样本训练后的模型则可以同时关注到一些之前没关注的身体区域，从而进步了模型在测试阶段的鲁棒性。下图是该办法的一个详细完成，其中 ReID 采用 ID 多分类模型，模型可视化办法采用滑动窗口遮挡的办法。

中科院自动化所智能感知与计算研究中心11篇论文被CVPR接收

基于对立式遮挡的数据扩增算法流程图

论文 4 Learning Semantic Concepts and Order for Image and Sentence Matching

Yan Huang, Qi Wu, Liang Wang

图像文本婚配的关键成绩在于如何精确度量图像文本之间的跨模态类似度。我们经过数据剖析发现：图像文本之所以可以婚配，次要是由于如下两点缘由：1）图像文本虽表现不同的模态特性，但他们包括共同的语义概念；2）语义概念的集兼并不是无序的，而是依照一定的语义顺序组织起来的。由此，我们提出了一个模型来结合对图像文本所包括的语义概念和语义顺序停止学习。该模型运用了一个多标签区域化的卷积网络来对恣意图像预测其所包括的语义概念集合。然后，基于失掉的语义概念将其有规律地陈列起来，即学习语义顺序。这一进程详细是经过结合图像文本婚配和生成的战略来完成的。此外，还探求了部分语义概念与全局上下文信息之间的互补作用，以及对文本生成的影响。我们在以后主流的图像文本婚配数据库 Flickr30k 和 MSCOCO 上停止了少量实验，验证了我们所提出办法的无效性，并获得了以后最好的跨模态检索后果。

中科院自动化所智能感知与计算研究中心11篇论文被CVPR接收

结合图像语义概念和语义顺序学习框架

论文 5 A2-RL: Aesthetics Aware Reinforcement Learning for Image Cropping

Debang Li，Huikai Wu，Junge Zhang，Kaiqi Huang

随着以后图像数据量的不时增长，对图像停止自动处置的需求也逐步变大，而图像裁剪是图像处置中的一个非常重要的步骤。图像自动裁剪技术不只可以疾速的完成对大少数图片的处置，同时还可以辅佐专业摄像师找到更好的视角来提升图像的构图质量，其具有非常大的使用价值。由于图像裁剪的数据标注较难取得，而且普通数据量较少，我们提出了一种基于强化学习的弱监视（不需求裁剪框标注）图像自动裁剪算法 A2-RL。之前的弱监视自动裁剪算法大局部运用滑动窗口来获取候选区域，其需求消耗较大的计算资源和工夫，为理解决上述成绩，我们将强化学习引入到自动裁剪中，运用一个智能体（agent）在输出图像上自顺应的调整候选区域的地位和大小。该智能体以图像的全局特征和部分特征作为观测信息，并且依据以后和历史的观测作为根据来决议下一步的举措。在训练进程中，该智能体依据图像质量的评分计算奖励，并运用 A3C 算法停止训练，最终学到较好的候选区域调整战略。在实验进程中，我们的办法在多个规范的裁剪数据集上停止了测试，其不只在速度上获得了较大的提升，同时在精度上也有分明的进步。我们办法的全体框架图为：

中科院自动化所智能感知与计算研究中心11篇论文被CVPR接收

基于强化学习的图像自动裁剪模型架构

论文 6 Discriminative Learning of Latent Features for Zero-Shot Recognition

Yan Li, Junge Zhang, Kaiqi Huang, Jianguo Zhang

零样本学习（Zero-Shot Learning）经过在视觉和语义两个空间之间学习一个共同的嵌入式空间，可以完成对测试集中的未知类别停止测试。以往的零样本任务，次要集中在嵌入式空间学习进程中，疏忽了视觉特征、语义特征在零样本学习中的作用。我们针对传统的零样本学习进程中，特征表达区分度缺乏的成绩，从视觉空间和语义空间两个方面提出了改良办法，在两个空间同时学习到区分度更强的特征表达，进而极大地提升了零样本学习的辨认功能。详细来说，1）在视觉空间，我们提出了 zoom net，从原始的图片中，自动发掘具有区分度的图片区域。2）在语义空间，除了用户定义的属性之外，我们应用 triplet loss，自动地学习具有区分度的「隐式属性」。3）最终，图片空间中的区分性区域发掘，以及语义空间中的区分性隐属性学习两个模块在一个端到端框架中结合学习，共同促进。

中科院自动化所智能感知与计算研究中心11篇论文被CVPR接收

用于零样本学习的隐式判别性特征发掘框架

论文 7 Pose-Guided Photorealistic Face Rotation

Yibo Hu, Xiang Wu, Bin Yu, Ran He, Zhenan Sun

随着深度学习的开展，人脸辨认算法的功能失掉了普遍提升，但是大姿势人脸辨认成绩仍然亟待处理。人脸旋转为人脸辨认中的大姿势成绩提供了一种无效的处理方式。我们提出了一种恣意角度的人脸旋转算法 Couple-Agent Pose-Guided Generative Adversarial Network (CAPG-GAN)。CAPG-GAN 经过人脸关键点编码姿势信息指点对立生成网络停止人脸生成义务。同时运用身份坚持损失函数和全变分正则项约束人脸的身份信息和部分纹理信息。最终我们的算法在 Multil-PIE 和 LFW 上均获得了不错的辨认率，同时如图所示，CAPG-GAN 可以依据人脸关键编码信息生成恣意角度人脸。

中科院自动化所智能感知与计算研究中心11篇论文被CVPR接收

不同姿势人脸图像生成后果

论文 8 Multistage Adversarial Losses for Pose-based Human Image Synthesis

Chenyang Si, Wei Wang, Liang Wang, Tieniu Tan

单张图片的多视角图像分解在计算机视觉中是一个十分重要并且具有应战性的成绩，而且关于人的多视角图像分解在对人体行为了解中具有很重要的使用价值。应用人的多视角分解可以无效地处理在计算机视觉中存在的跨视角成绩，例如跨视角行为辨认、跨视角行人再辨认等等。由于人姿势的多变性，人的多视角图像分解比刚性物体（如车、椅子等等）的多视角分解更具有应战性。我们提出了多阶段对立损失函数在基于人体关键点的多视角人体图像分解算法，该算法可以生成高质量多视角人体图像，而且可以坚持分解人的姿势在三维空间中坚持分歧。为了可以生成高质量图像，我们提出从低维度人体构造到图像前景，最初分解背景的多阶段图像生成模型，为理解决均方误差损失函数惹起的图像模糊的成绩，我们在多阶段运用对互联网思维，就是在(移动)互联网+、大数据、云计算等科技不断发展的背景下，对市场、用户、产品、企业价值链乃至对整个商业生态进行重新审视的思考方式。立损失函数。我们的算法如图所示：

中科院自动化所智能感知与计算研究中心11篇论文被CVPR接收

基于pose的多阶段对立学习的人体图像分解网络框架

论文 9 Mask-guided Contrastive Attention Model for Person Re-Identification

Chunfeng Song, Yan Huang, Wanli Ouyang, and Liang Wang

行人再辨认成绩是一个重要且具有应战性的经典计算机视觉义务。通常摄像头采集到的行人图像中含有芜杂的背景，并且图像中的行人通常有多种多样的姿势和视角，这些多样性形成的困难在之前的研讨中都尚未失掉很好的处理。为理解决上述成绩，我们引进了二值化的行人联系轮廓图作为额定输出，并与黑色图像分解为四通道的新输出，然后设计了一种基于联系轮廓图的比照留意模型来学习背景有关的行人特征。在此根底上，我们提出了一种区域级别的三元组损失函数，辨别来约束来自全图区域、行人身体区域、背景区域的特征，提出的损失函数可以让来自全图区域和行人身体区域的特征在特征空间接近，并远离背景区域，最终到达去除背景的作用。所提出的办法在三个行人再辨认数据集上验证了无效性，获得了以后最好的功能。

中科院自动化所智能感知与计算研究中心11篇论文被CVPR接收

二值化联系轮廓与区域级别三元组约束表示图

论文 10 M^3: Multimodal Memory Modelling for Video Captioning

Junbo Wang, Wei Wang, Yan Huang, Liang Wang, Tieniu Tan

视频描绘关于了解视觉与言语是非常重要的一环，同时也是很有应战性的义务。它有很多的实践使用价值，包括人机交互、视频检索、为盲人转述视频等。针对这一成绩，我们提出了一个多模态记忆模型用于视频描绘，这一模型树立了视觉与文本共享的记忆存储器用来模仿长范围视觉文本依赖性并且进一步指点视频描绘中的全局视觉目的的关注。自创神经图灵机模型的原理，该模型经过屡次读写操作与视频和句子停止交互并附加了一个内部记忆存储器用来存储来自视觉与言语模态的信息。下图展现了用于视频描绘的多模态记忆建模的全体框架。

这一框架包括三个关键模块：基于卷积网络的视频编码器，多模态记忆存储器，基于 LSTM 的文本解码器。（1）基于卷积网络的视频编码器首先应用预训练的 2D 或许 3D 卷积网络模型提取关键帧或段的特征，再应用时序留意模型选择与以后单词最相关的视觉表示，并写入到记忆存储器中；（2）基于 LSTM 的文本解码器应用 LSTM 模型对句子的发生停止建模，它预测以后的单词不只依赖于之前时辰的隐藏表示，而且还有从记忆存储器中读取的信息，异样地，它会向记忆存储器中写入更新的表示。（3）多模态记忆存储器包括一个记忆存储矩阵用来与视频编码器和文本解码器停止交互，例如，从 LSTM 解码器中写入隐藏表示和读取记忆内容用于解码器。每一步写入操作都会更新多模态记忆存储器。最初，我们在两个地下的数据集（MSVD 和 MSR-VTT）上对提出的模型停止了评价。实验后果标明提出的模型在 BLEU 和 METEOR 两个目标上都超越了许多以后最好的后果。

中科院自动化所智能感知与计算研究中心11篇论文被CVPR接收

用于视频描绘的多模态记忆模型架构

论文 11 Fast End-to-End Trainable Guided Filter

Huikai Wu, Shuai Zheng, Junge Zhang, Kaiqi Huang

我们提出了一个全新的用于结合超分 (Joint Upsampling) 的深度学习模块---引导滤波单元 (Guided Filtering Layer)。此模块将传统的引导滤波 (Image Guided Filtering) 算法建模为一个可以反向传达、与其他模块结合训练的深度学习单元，同时还引入可以自顺应学习的引导图 (Guidance Map) 来进步灵敏性。经过与原有的卷积神经网络结合，引导滤波单元可以普遍地使用于稀疏预测义务 (Dense Prediction Task)，并取得更快的速度、更高的精度和更少的内存占用量。实验证明，引导滤波单元可以在众多图像处置义务中获得最好的功能并取得 10 至 100 倍的速度提升。在计算机视觉中的众多稀疏婚配义务中，此模块异样可以获得明显的功能提升。代码和论文将发布在 htt

ps://github.com/wuhuikai/DeepGuidedFilter。

中科院自动化所智能感知与计算研究中心11篇论文被CVPR接收

运用卷积神经网络和提出的引导滤波单元停止图像到图像变换的后果展现

雷锋网版权文章，未经受权制止转载。概况见。

免责声明：本文章由会员“陈书东”发布如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

标签：