Goodfellow最新对立样本，连人类都分不清是狗是猫

2025-08-09 00:10:23

导读雷锋网 AI 科技评论按：机器学习模型容易遭到对立样本的影响，这已不是什么新颖事。置信上面大家对上面这幅图（Goodfellow et al., 2014）都不生疏：Goodfellow 凭仗这张图让我们晓得，即便对样本巨大的改动也能诈骗学习模型，让模型做出背道而驰的判别。这项任务充沛阐明了目前 AI 零碎的软弱性。雷锋网留意到，近期 Goodfellow 等人在「诈骗」上又更上一层楼，不光是诈骗

雷锋网 AI 科技评论按：机器学习模型容易遭到对立样本的影响，这已不是什么新颖事。置信上面大家对上面这幅图（ Goodfellow et al., 2014 ）都不生疏：

Goodfellow最新对抗样本，连人类都分不清是狗是猫

Goodfellow 凭仗这张图让我们晓得，即便对样本巨大的改动也能诈骗学习模型，让模型做出背道而驰的判别。这项任务充沛阐明了目前 AI 零碎的软弱性。

雷锋网留意到，近期 Goodfellow 等人在「诈骗」上又更上一层楼，不光是诈骗机器，连人类也被诈骗了。

Goodfellow最新对抗样本，连人类都分不清是狗是猫

如上图所示，机器模型和人类都会判别左侧是猫，而右侧是狗，即便你细心察看能够也会得出相反的结论。而现实上右侧图像只是左侧图像一个复杂地对立扰动。相关的任务宣布在《 Adversarial Examples that Fool both Human and Computer Vision 》。

意义

这篇文章的重要意义显而易见。如论文摘要中所说：「机器学习模型易受对立样简单来说，创业有四步：一创意、二技术、三产品、四市场。对于停留在‘创意’阶段的团队，你们的难点不在于找钱，而在于找人。”结合自身微软背景及创业经验。本的攻击这点大家曾经十分清楚；人类能否也有相反的弱点还是一个开放性成绩； 而这篇文章提出了第一个可以诈骗人类的对立样本。 」

论文中还说到它对机器学习平安研讨的影响。从机器学习平安的角度来思索，假如我们晓得人脑可以抵挡某些类型的对立样本， 那么这就阐明在机器学习平安中存在相似的机制，这为我们寻觅它们提供了决心和线索 ；反过去，假如我们晓得存在对立样天性够诈骗我们的大脑，那么这就通知我们，机器学习平安的重心不应该是研讨如何设计鲁棒性极高的模型， 而应是研讨如何保证零碎即便包括非鲁棒性的 ML 组件，依然是平安的。

另一方面，假如针对计算机视觉开发的对立样本对人脑也有影响，这将为我们理解人脑的任务机理提供某些线索。

思路

在 Goodfellow et al.(2014) 的文章之后，计算机视觉范畴相继呈现很多构建对立样本的盛行算法，这些算法的一个共同点就是依赖模型的架构和参数来对输出停止梯度优化。但是，我们仿佛没方法获取大脑这个模型的「架构」以及「参数」。那么如何才干构建针对人类的对立样本呢？

这就需求思索一个比拟有意思的景象了——对立样本通常可以在模型之间停止迁移；也即是说，我们可以经过迁移的办法来攻击哪些不晓得其「架构」和「参数」的模型。这就使得构建针对人类的对立样本成为能够。

当然事情并不是这么复杂。作为人类，我们有很多认知偏向或许视觉错觉，但是这些偏向或错觉并不同等于之前研讨中对图像的巨大扰动。此外，我们可以经过学习损失函数来优化机器模型的对立样本，但是关于人类，这种办法显然是有效的（或许需求破费极大的休息）。所以到目前为止并没有看到有将迁移性对立样本使用于人类视觉感知范畴的研讨。

这篇文章的作者针对这些成绩，采取了三个关键的思想来处理：

之一，作者运用近期的黑箱对立样本构建技术为一个目的模型（不需求晓得模型的架构和参数）创立对立样本；
之二，作者对机器学习模型做了一番调整来模拟人类后期视觉处置进程，也即让模型更像人，使对立模型更容易从学习模型迁移到人类；
之三，由于人类在分类义务中的精确率太高，实验功能的巨大改动能够达不到可观测的效果。于是作者在评价人类察看者的分类决策时，限制他们必需在一定的工夫范围内做出决议，这样一来对立样本对人的影响就更容易被检测出来了。

藉此三条， Goodfellow 等人构建出了可以同时诈骗机器学习模型和人类的对立样本。

模型

作者构建了 k（k=10）个在 ImageNet 上训练的 CNN 模型，每个模型都是以下这些架构之一的实例 (Szegedy et al., 2015; 2016; He et al., 2016)：

Inception V3, Inception V4, Inception ResNet V2

ResNet V2 50, ResNet V2 101, ResNet V2 152

如后面提到的思想之二，作者为每个模型输出前置了一个视网膜层，该视网膜层包括了一些人眼的视觉变换；甚至，作者还在这个视网膜层中添加了公平依赖的模糊化，以更契合人类经过视网膜格子（注：人类视网膜不是密集排布的）输出的机理。

结果

让我们回到扫尾的那张图片。不得不说，这是一张极具代表性的例子，即便我们再多看几遍也依然会以为右侧的那张图片是狗。

Goodfellow最新对抗样本，连人类都分不清是狗是猫

上面这张是更多的后果：

Goodfellow最新对抗样本，连人类都分不清是狗是猫

下面一列从左到右，是攻击不同个数（1，5，10）的模型生成的对立样本，随后用两个测试模型（其中一个是人类模型）停止分类。可以看出攻击的目的模型数量越多，生成的图像对人类来说越像狗。

上面一列则是针对 10 个模型的攻击生成的对立样本，从左到右为不同的攻击水平。文中引见说 eps=8 时，人类受试者曾经以为这是狗了。

p.s. 不过为什么雷锋网 (大众号：雷锋网) 觉得原图仿佛也是狗呢？

Ian Goodfellow叒来讨论平安成绩了，noisy SGD和PATE能满足传统计算机平安准绳吗？

Ian Goodfellow和Papernot半年三篇博文，对机器学习的平安隐私来了个大起底

Ian Goodfellow与ICLR 17最佳论文得主新作：验证与测试，机器学习的两大应战

自Ian Goodfellow之后，GANs还有哪些开辟性停顿？

。

免责声明：本文章由会员“金书”发布如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

标签：

Goodfellow最新对立样本，连人类都分不清是狗是猫

意 义

思 路

模 型

结 果

意义

思路

模型

结果