农企新闻网

阿里巴巴Poster论文:处置多种退步类型的卷积超分辨率

发布者:刘阳明
导读阿里巴巴达摩院机器智能技术实验室+10AI影响因子论文称号:CVPR工夫:2018企业:阿里巴巴从学术开发和企业活动上看,阿里巴巴达摩院机器智能技术实验室在雷锋网(大众号:雷锋网)学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中有不错的表现。实验室辨别在SQuAD和KITTI竞赛中取得第一名,近期在 AAAI 2018 上,达摩院机器智能技术实验室共有 4 篇论文被录用,在CVPR 20
阿里巴巴Poster论文:处理多种退化类型的卷积超分辨率 阿里巴巴达摩院机器智能技术实验室 +10 AI影响因子 论文 称号: CVPR 工夫: 2018 企业: 阿里巴巴

从学术开发和企业活动上看,阿里巴巴达摩院机器智能技术实验室在雷锋网 (大众号:雷锋网) 学术频道 AI 科技评论旗下数据库项目 「AI 影响因子」 中有不错的表现。实验室辨别在 SQuAD 和 KITTI 竞赛中取得第一名,近期在 AAAI 2018 上, 达摩院机器智能技术实验室共有 4 篇论文被录用 ,在CVPR 2018上,也有多篇论文被录用,成果斐然。

阿里巴巴Poster论文:处理多种退化类型的卷积超分辨率

1.摘要

近年来,深度卷积神经网络(CNN)办法在单幅图像超分辨率(SISR)范畴获得了十分大的停顿。但是现有基于 CNN 的 SISR 办法次要假定低分辨率(LR)图像由高分辨率(HR)图像经过双三次 (bicubic) 降采样失掉,因而当真实图像的退步进程不遵照该假定时,其超分辨后果会十分差。此外,现有的办法不能扩展到用单一模型处理多种不同的图像退步类型。为此,提出了一种维度拉伸战略使得单个卷积超分辨率网络可以将 SISR 退步进程的两个关键要素(即模糊核和噪声程度)作为网络输出。归因于此,训练失掉超分辨网络模型可以处置多个甚至是退步空间不平均的退步类型。实验后果标明提出的卷积超分辨率网络可以疾速、无效的处置多种图像退步类型,为 SISR 实践使用提供了一种高效、可扩展的处理方案。

2. 引言

单幅图像超分辨率(SISR)的目的是依据单幅低分辨(LR)图像输出失掉明晰的高分辨率(HR)图像。普通来说,LR 图像 y 是明晰 HR 图像 x 由上面的退步进程得来,

 

其中
表示 HR 明晰图像 x 与模糊核 k 之间的卷积,
表示系数为 s 的降采样算子,n 表示规范差(噪声程度)为σ的加性高斯白噪声(AWGN)。

SISR 办法次要分为三类:基于插值的办法、基于模型的办法以及基于判别学习的办法。基于插值的办法(例如:最近邻插值、双三次插值)虽然速度快,但是其效果比拟差。基于模型的办法经过引入图像先验,例如:非部分类似性先验、去噪先验等,然后求解目的函数失掉视觉质量较好的 HR 图像,但是速度较慢。虽然结合基于 CNN 的去噪先验可以在某种水平上提升速度,但依然受限于一些弊端,例如:无法停止端对端的训练,包括一些比拟难调的参数等。基于判别学习的办法尤其是基于 CNN 的办法因其速度快、可以端对端的学习因此效果好等在近几年遭到了普遍关注,并且逐步成为处理 SISR 的主流办法。

自从首个用 CNN 处理 SISR 的任务 SRCNN 在 ECCV(2014)宣布以来,各种不同的改良办法相继提出。例如,VDSR 在 PSNR 目标上获得了十分大的提升;ESPCN 和 FSRCNN 辨别在速度上停止了改良;SRGAN 在缩小倍数较大状况下针对视觉效果的改善提出了无效的办法。但是这些办法都存在一个共同缺陷,也就是它们只思索双三次 (bicubic) 降采样退步模型并且不能灵敏的将其模型扩展到同时(非盲)处置其它退步类型。由于真实图像的退步进程多种多样,因此此类办法的无效实践使用场景十分无限。一些 SISR 任务曾经指出图像退步进程中的模糊核的精确性对 SISR 起着至关重要的作用,但是并没有基于 CNN 的相关任务将模糊核等要素思索在内。为此引出本文次要处理的成绩:能否可以设计一个非盲超分辨率(non-blind SISR)模型用以处理不同的图像退步类型?

3.办法

本文首先剖析了在最大后验(MAP)框架下的 SISR 办法,借此希望可以指点 CNN 网络构造的设计。由于 SISR 成绩的不适定性,通常需求引入正则项来约束解空间。详细来说,LR 图像 y 对应的 HR 图像 x 可以经过求解下述成绩近似,


其中
为似然(也即数据保真)项,
为先验(也即正则)项,λ为似然项和先验项之间的权衡参数。复杂来说,上述公式包括两点:

1)估量失掉的 HR 图像不只要契合 SISR 的退步进程,并且还要满足明晰图像所具有的先验特征;

2)关于非盲超分辨率成绩,x 的求解与 LR 图像 y、模糊核 k、噪声程度σ以及权衡参数λ有关。

简而言之,非盲 SISR 的 MAP 估量可以表示为
,其中  ∵  为 MAP 估量中的参数。进而假如将 CNN 看作 MAP 估量另一种方式的解,那么有如下结论:

  1.             由于数据保真项对应着 SISR 的退步进程,因而退步进程的精确建模对 SISR 的后果起着至关重要的作用。但是现有的基于 CNN 的办法其目的是求解上面的成绩,

     

  2. 由于没有将模糊核和噪声等要素思索在内,因而其适用性十分无限。为了设计愈加无效的基于 CNN 的 SISR 模型,应该将更多的图像退步类型思索在内,一个复杂的思绪就是将模糊核 k 和噪声程度σ也作为网络的输出。由于权衡参数λ可以融入噪声程度σ之中,因而 CNN 映射函数可以简化成如下方式:


     

  3.             由于 MAP 估量中大局部的参数都对应着图像先验局部,而图像先验是与图像退步进程不相关的,因而单一的 CNN 模型具有处置不同退步类型的建模才能。

经过上述剖析可以得出非盲 SISR 应该将退步模型中的模糊核和噪声程度也作为网络的输出。但是 LR 图像、模糊核和噪声程度三者的维度是不同的,因而不能直接作为 CNN 的输出。为此本文提出了一种维度拉伸战略。假定 LR 图像大小为 W×H,首先将向量化的模糊核 PCA 降维,然后和噪声程度并在一同失掉一个 t+1 维的向量 v,接着将 v 拉伸为 W×H×(t+1) 维的张量,我们将此张量称之为退步图(Degradation Maps),其中第 i 个 W×H 图的一切元素均为 v i

阿里巴巴Poster论文:处理多种退化类型的卷积超分辨率

图 1:维度拉伸表示图

至此,我们可以将退步图和 LR 图像兼并在一同作为 CNN 的输出。为了证明此战略的无效性,选取了疾速无效的 ESPCN 超分辨网络构造框架。值得留意的是为了减速训练进程的收敛速度,同时思索到 LR 图像中包括高斯噪声,因而网络中参加了 Batch Normalization 层。图 2 给出了提出的超分辨率网络(简称 SRMD)构造框架。

阿里巴巴Poster论文:处理多种退化类型的卷积超分辨率

图 2:提出的超分辨率网络构造框架(卷积层数为 12,每层通道数为 128)。

4.实验

在训练阶段,SRMD 采用了各向异性和各向异性的高斯模糊核、噪声程度在 [0, 75] 之间的高斯白噪声以及 bicubic 降采样算子。需求指出的是 SRMD 可以扩展到其它降采样算子,甚至其它退步模型。

在测试阶段,SRMD 比拟了不同办法在同为 bicubic 降采样退步下的 PSNR 和 SSIM 后果(如表 1 所示)。可以看出虽然 SRMD 是用来处置各种不同的退步类型,但是依然在 bicubic 降采样退步下获得不错的效果。需求指出的是 SRMD 在速度上也有很大的优势,在 Titan Xp GPU 上处置 512×512 的 LR 图像仅需 0.084 秒,是 VDSR 超分辨率两倍所用工夫的一半。表 2 给出了不同退步类型下的 PSNR 和 SSIM 后果比拟,可以看到 SRMD 异样获得了不错的效果。图 4 举例阐明了 SRMD 可以设定非平均退步图,进而可以处置退步空间不平均的 LR 图像。最初,图 5 展现了不同办法在真实图像上的视觉效果比拟,可以看到 SRMD 恢复的 HR 图像在视觉效果上分明优于其它办法。

阿里巴巴Poster论文:处理多种退化类型的卷积超分辨率

表 1:不同办法在 bicubic 降采样退步下的 PSNR 和 SSIM 后果比拟(其中 SRMDNF 表示不思索噪声状况下训练失掉的模型)。

阿里巴巴Poster论文:处理多种退化类型的卷积超分辨率

图 3:不同办法在 bicubic 降采样退步下超分辨率四倍的视觉效果比拟。

  阿里巴巴Poster论文:处理多种退化类型的卷积超分辨率

AI已经渗透到了生活中的方方面面。在智能交通领域,人工智能技术也正在发挥作用。

表 2:不同办法在不同退步类型下的 PSNR 和 SSIM 后果比拟。

阿里巴巴Poster论文:处理多种退化类型的卷积超分辨率

图 4:举例阐明 SRMD 可以处置退步空间不平均的情形。(a)噪声程度以及模糊核宽度的空间散布;(b)LR 图像(最近邻插值缩小);(c)恢复失掉的 HR 图像(缩小两倍)。

阿里巴巴Poster论文:处理多种退化类型的卷积超分辨率  

图 5:不同办法在 SISR 经典测试图像「Chip」上超分辨率四倍的视觉效果比拟。

5.结论

最初总结一下,本文的次要奉献有三个方面:

  • 提出了一种复杂、无效、可扩展的超分辨率模型,其不只可以处置 bicubic 降采样退步模型,并且可以处置多个甚至是退步空间不平均的退步类型,为 SISR 实践使用提供了一种处理方案。

  • 提出了一种复杂无效的维度拉伸战略使得卷积神经网络可以处置维度不同的输出,此战略可以扩展到其他使用。

  • 经过实验展现了用分解图像训练失掉的超分辨网络模型可以无效的处置真实图像复杂的退步类型。

论文链接:

http://www4.comp.polyu.edu.hk/~cslzhang/paper/CVPR18_SRMD.pdf

雷锋网版权文章,未经受权制止转载。概况见。

阿里巴巴Poster论文:处理多种退化类型的卷积超分辨率