农企新闻网

清华大学廖方舟:发生和进攻对立样本的新办法

发布者:丁俊远
导读雷锋网AI研习社按:对立样本是一类被歹意设计来攻击机器学习模型的样本。它们与真实样本的区别简直无法用肉眼分辨,但是却会招致模型停止错误的判别。本文就来大家普及一下对立样本的根底知识,以及如何做好对立样本的攻与防。在近期雷锋网AI研习社举行的线上地下课上,来自清华大学的在读博士生廖方舟分享了他们团队在 NIPS 2017 上一个对立样本攻防大赛中提到的两个新办法,这两个办法在大赛中辨别取得了攻击方和

雷锋网AI研习社按 :对立样本是一类被歹意设计来攻击机器学习模型的样本。它们与真实样本的区别简直无法用肉眼分辨,但是却会招致模型停止错误的判别。本文就来大家普及一下对立样本的根底知识,以及如何做好对立样本的攻与防。

在近期雷锋网AI研习社举行的线上地下课上,来自清华大学的在读博士生廖方舟分享了他们团队在 NIPS 2017 上一个对立样本攻防大赛中提到的两个新办法,这两个办法在大赛中辨别取得了攻击方和防卫方的第一名。点击可 视频回放

廖方舟,清华大学化学系学士,生医系在读博士。研讨方向为计算神经学,神经网络和计算机视觉。参与屡次 Kaggle 竞赛,是 Data Science Bowl 2017 冠军,NIPS 2017 对立样本竞赛冠军。Kaggle 最高排名世界第10。

分享主题:

动量迭代攻击和高层引导去噪:发生和进攻对立样本的新办法

清华大学廖方舟:产生和防御对抗样本的新方法

分享内容:

大家好,我是廖方舟,明天分享的主题是对立样本的攻和防。对立样本的存在会使得深度学习在平安敏理性范畴的使用收到要挟,如何对其停止无效的进攻是很重要的研讨课题。 我将从以下几方面做分享。

  • 什么是很多朋友说,共享纸巾机是一个广告机,但我们不是这样定义它,我们定义它是一个互联网跟物联网结合的终端机,从线下吸入流量,重新回到线上,以共享纸巾项目作为流量入口,打造全国物联网社交共享大平台。对立样本

  • 传统的攻击办法

  • 传统的防卫办法

  • 动量迭代攻击

  • 去噪办法

  • 高层引导去噪办法

什么是对立样本

对立样本的性质不只仅是图片所拥有的性质,也不只仅是深度学习神经网络独有的性质。因而它是把机器学习模型使用到一些平安敏理性范畴里的一个妨碍。

事先,机器学习大牛Good fellow找了些船、车图片,他想逐步参加一些特征,让模型对这些船,车的辨认逐步变成飞机,到最初发现人眼观测到的图在互联网思维的影响下,传统服务业不再局限于规模效益,加强对市场的反应速度成为传统服务业发展的首要选择。在互联网思维下,通过对传统服务业的改革,为传统服务业发展创造了全新的天地。片仍然是船、车,但模型曾经把船、车当做飞机。

清华大学廖方舟:产生和防御对抗样本的新方法

我们之前的任务发现样本不只仅是对最初的预测发生误导,对特征的提取也发生误导。这是一个可视化的进程。

当把一个正常样本放到神经网络后,神经元会专门察看鸟的头部,但我们给它一些对立样本,这些对立样本也都全部设计为鸟,就发现神经网络提取出来的特征都是乌七八糟,和鸟头没有太大的关系。也就是说诈骗不是从最初才发作的,诈骗在从模型的两头就开端发生的。

清华大学廖方舟:产生和防御对抗样本的新方法

下图是最复杂的攻击办法——Fast Gradient Sign Method 

清华大学廖方舟:产生和防御对抗样本的新方法

除了FGSM单步攻击的办法,它的一个延伸就是多步攻击,即反复运用FGSM。由于有一个最大值的限制,所以单步的步长也会相应减少。比方这里有一个攻击三步迭代,每一步迭代的攻击步长也会相应减少。

清华大学廖方舟:产生和防御对抗样本的新方法

发生图片所用的CNN和需求攻击的CNN是同一个,我们称为白盒攻击。与之相反的攻击类型称为黑盒攻击,也就是对需求攻击的模型一无所知。

清华大学廖方舟:产生和防御对抗样本的新方法

以上所说的都是Non Targeted, 只需最初失掉的目的预测不正确就可以了。另一种攻击Targeted FGSM,目的是不只要分的不正确,而且还要分到指定的类型。

清华大学廖方舟:产生和防御对抗样本的新方法

一个进步黑盒攻击成功率卓有成效的方法,是攻击一个集合。

清华大学廖方舟:产生和防御对抗样本的新方法

而目前为止一个卓有成效的防卫战略就是对立训练。在模型训练进程中,训练样本不只仅是洁净样本,而是洁净样本加上对立样本。随着模型训练越来越多,一方面洁净图片的精确率会添加,另一方面,对对立样本的鲁棒性也会添加。

清华大学廖方舟:产生和防御对抗样本的新方法

上面复杂引见一下NIPS 2017 上的这个竞赛规则

竞赛构造

清华大学廖方舟:产生和防御对抗样本的新方法

两个限制条件 :容忍范围不能太大;不能花太长工夫发生一个对立样本,或许防卫一个对立样本

清华大学廖方舟:产生和防御对抗样本的新方法

FGSM算法后果

清华大学廖方舟:产生和防御对抗样本的新方法

图中绿色模型为攻击范围,最初两栏灰色是黑盒模型,随着迭代数量的添加, 攻击成功率反而上升。这就给攻击形成了难题。

我们处理的方法就是在迭代与迭代两头参加动量

清华大学廖方舟:产生和防御对抗样本的新方法

参加动量之后,白盒攻击变强了,而且对黑盒模型攻击的成功率也大大提升了。

清华大学廖方舟:产生和防御对抗样本的新方法

总结:

以后方法(iterative attack)的弱点是在迭代数量增多的状况下,它们的迁移性,也就是黑盒攻击性会削弱,在我们提出参加动量之后,这个成绩失掉理解决,可以很担心运用十分多的迭代数量停止攻击。

在NIPS 2017 竞赛上失掉最高的分数

清华大学廖方舟:产生和防御对抗样本的新方法

需求提到的一点,下面提到的都是Non-targeted , 在Targeted攻击外面,这个战略有所不同。在Targeted攻击外面,根本没有察看到迁移性,也就是黑盒成功率不断很差,即使是参加动量,它的迁移水平也十分差。

上面讲一下防卫

首先想到的就是去噪声,我们尝试用了一些传统的去噪办法(median filter 、BM3D)效果都不好。之后我们尝试运用了两个不同架构的神经网络去噪。一个是 Denoising Autoencoder,另一个是Denoising Additive U-Net。

清华大学廖方舟:产生和防御对抗样本的新方法

我们的训练样本是从ImageNet数据集中取了三万张图片 ,运用了七个不同的攻击办法对三万张图片攻击,失掉21万张对立样本图片以及三万张对应的原始图片。除了训练集,我们还做了两个测试集。一个白盒攻击测试集和一个黑盒攻击测试集。

清华大学廖方舟:产生和防御对抗样本的新方法

训练效果

清华大学廖方舟:产生和防御对抗样本的新方法

我们发现经过来噪当前,正确率反而有点下降。我们剖析了一下缘由,输出一个洁净图片,再输出一个对立图片,然后计算每一层网络在这两张图片上表示的差距,我们发现这个差距是逐层缩小的。

图中蓝线发现缩小的幅度十分大,图中红线是去噪当时的图片,依然在缩小,招致最初还是被分错。

清华大学廖方舟:产生和防御对抗样本的新方法

为理解决这个成绩,我们提出了经过改进后的网络 HGD

清华大学廖方舟:产生和防御对抗样本的新方法

HGD 的几个变种

清华大学廖方舟:产生和防御对抗样本的新方法

和之前的办法相比,改进后的网络 HGD防卫精确率失掉很大的提升

清华大学廖方舟:产生和防御对抗样本的新方法

HGD 有很好的迁移性

清华大学廖方舟:产生和防御对抗样本的新方法

最初竞赛中,我们集成了四个不同的模型,以及训练了他们各自的去噪, ,最终把它们兼并起来提交了上去。

清华大学廖方舟:产生和防御对抗样本的新方法

HGD网络总结

优点:

  • 效果明显比其他队伍的模型好。

  • 比后人的办法运用更少的训练图片和更少的训练工夫。

  • 可迁移。

缺陷:

  • 还依赖于巨大变化的可测量

  • 成绩并没有完全处理

  • 依然会遭到白盒攻击,除非假定对手不晓得HGD的存在

雷锋网 (大众号:雷锋网) AI慕课学院提供了本次分享的视频回放:http://www.mooc.ai/open/course/383

清华大学廖方舟:产生和防御对抗样本的新方法