图鸭科技 CVPR 2018 图像紧缩应战赛夺冠，获奖论文全解读

2025-08-07 00:48:21

导读图鸭科技+10AI影响因子竞赛竞赛称号：CLIC 图像紧缩应战赛年份：2018企业：图鸭科技操作：竞赛名次：1雷锋网 AI 研习社按，在 CVPR 2018 机器学习图像紧缩应战赛（CLIC）上，图鸭科技紧缩团队取得紧缩算法 MOS 和 MS-SSIM 值第一名的成果，这是中国企业在该赛事上获得的最高名次。（图鸭科技凭仗在 CLIC 中 MOS 和 MS-SSIM 目标第一，在雷锋网(大众号：雷锋

图鸭科技 +10 AI影响因子竞赛竞赛称号： CLIC 图像紧缩应战赛年份： 2018 企业：图鸭科技操作：竞赛名次： 1

雷锋网 AI 研习社按，在 CVPR 2018 机器学习图像紧缩应战赛（CLIC）上，图鸭科技紧缩团队取得紧缩算法 MOS 和 MS-SSIM 值第一名的成果，这是中国企业在该赛事上获得的最高名次。（图鸭科技凭仗在 CLIC 中 MOS 和 MS-SSIM 目标第一，在雷锋网 (大众号：雷锋网) 学术频道 AI 科技评论旗下数据库项目「 AI 影响因子」中添加 10 分。）

CVPR 作为计算机视觉范畴的全球顶级会议，其不断关注计算机视觉范畴的开展，为了促进计算机视觉范畴图片紧缩的开展，Google 结合 twitter、Netflix 等结合资助了机器学习图像紧缩应战赛（CLIC）。本次应战赛中有来自全球各地的图片紧缩团队，次要从 PSNR、MOS、MS-SSIM 这三个业界通用的图像质量评价（Image Quality Assessment,IQA）规范和解码速度（评分较高的队伍里解码速度最快）四个方面停止评选。

赛后，图鸭科技图片紧缩团队提交了本人关于深度学习图片紧缩方向的论文，他们为雷锋网 AI 研习社撰写了关于这篇论文的独家解读。

摘要：

最近机器学习的办法被普遍使用到有损图像紧缩设计中，基于自编码网络的算法获得了十分好的算法功能。一个典型的基于神经网络的图像紧缩框架包括：自编码网络构造、量化、先验概率模型、码率估量和率-失真优化等几个模块。本文中我们提出了一种可用于低码率图像紧缩，并可停止端到端优化的图像紧缩框架。在验证集和测试集上的实验后果均标明，当运用客观测评规范作为损失函数，在 MS-SSIM 和 MOS 等客观功能目标上能获得最优的功能。

成绩建模：

自编码网络的作用是将数据从图像空间
x 转换到数据编码空间 y，它包括一个编码器
f _e 和解码器
f _d 。编码器的作用是将图像像素值 x
转换为紧缩变量
。然后经过量化函数
，生成团圆向量。然后运用算术编码等熵编码技术将量化后的团圆数据停止无损紧缩，然后紧缩后的比特流被用于传输。在接纳端，接纳到比特流后，然后运用解码器从量化后的变量中重建出原图

，码率可用熵的构造停止建模

。我们可运用先验散布

对

停止估量。可以运用带参数的方式对先验散布停止拟合，然后用数据驱动的方式对先验概率模型停止学习。在紧缩模型中，失真 D 能用均方误差
停止表示，或运用如 MS-SSIM 之类的客观失真停止计算。对码率和失真停止加权的损失函数

用以对自编码紧缩算法停止端到端的优化。在整个零碎中，对先验模型

和量化的结合优化是设计高效紧缩算法最需求思索的技术。

办法引见：

(1) 编码器和解码器

我们的紧缩自编码网络运用了如图 1 所示的非对称构造，它包括卷积和非线性单元等模块。

图鸭科技 CVPR 2018 图像压缩挑战赛夺冠，获奖论文全解读

图 1：编码器和解码器构造表示图

(2) 量化：

在训练进程中，运用加性平均噪声设计量化器，表示方式为

，其中
是随机噪声。其中变量

的熵能用变量
的熵停止估量，因而在测量进程中，我们能运用

作为量化操作。这样一种方式下，也能对码率停止精确的估量。

(3) 先验概率和码率估量

自然图像的数据散布普通被以为是契合高斯散布，所以我们用零均值，方差表示为
的拉普拉斯散布

，对特征

的概率散布停止建模，概率的公式如下所示：

其中设计了一个自编码网络对方差停止学习，自编码网络的构造如图 2 所示

呼吁行业者在政府部门出台相关政策标准的之前，从业者一定要规范自己的行为准则健康有序的快速发展。图鸭科技 CVPR 2018 图像压缩挑战赛夺冠，获奖论文全解读

图 2：用于方差超参数学习的自编码网络

紧缩表示
作为超参数自编码网络的输出，对规范差散布停止学习。在超参自编码网络中，变量 Z 的学习公式表示为
，然后运用如上引见的方式停止量化，量化公式为
，然后被量化后的表示可作为附加变量停止传输。

图鸭科技 CVPR 2018 图像压缩挑战赛夺冠，获奖论文全解读

图 3：后处置算法构造表示图

(4) 后处置

低码率紧缩算法重建图最明显的缺陷是存在伪影，并且很多纹理细节会丧失。为了改良在低码率条件下重建图的质量，我们设计一个无效的后处置模块，后处置模块的详细细节如图 3 所示。

(5) 优化码率控制

率-失真优化是很多算法，如 HEVC 算法或 JPEG2000 算法中常常运用的战略。思索到码字约束，我们构建了一个停止码率无效分配的优化算法，目的是在码率约束的条件下，为每张图选择最优的模型。每张图的最优配置，经过优化以下的优化成绩停止选择。

(6) 实验后果

我们的办法参与了 CVPR 2018 CLIC 图像紧缩应战赛，在相应的验证集和测试集上的后果如表 1 所示。我们的算法 tucodecTNGcnn4p 获得了 MS-SSIM 和 MOS 两项目标排名第一，算法 tucodecTNG 获得了 PSNR 目标排名第二的成果。在验证集和测试集上的实验后果如表 1 所示。

图鸭科技 CVPR 2018 图像压缩挑战赛夺冠，获奖论文全解读

表 1：在验证集和测试集上的实验后果

论文地址： http://openaccess.thecvf.com/content_cvpr_2018_workshops/papers/w50/Zhou_Variational_Autoencoder_for_CVPR_2018_paper.pdf

。

免责声明：本文章由会员“刘熙一”发布如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

标签：