详细介绍这篇论文,我不想读了


这篇论文你可以把它理解成: “深度网络看起来很聪明,但它的内部表示和局部稳定性都很反直觉。” 论文标题是 Intriguing properties of neural networks ,作者包括 Christian Szegedy、Wojciech Zaremba、Ilya Sutskever、Ian Goodfellow 等。它最出名的贡献是:系统展示了后来被称为 对抗样本(adversarial examples) 的现象。

这篇论文主要讲两件事。

第一, 神经网络高层里的“单个神经元”未必有特殊语义,真正有语义的可能是整个表示空间。

第二, 神经网络对某些非常小、肉眼几乎看不出来的输入扰动极其脆弱。 也就是说,一张图本来被正确分类,稍微加一点精心设计的噪声之后,人看起来几乎没变,但模型可能会非常自信地分类错。


1. 这篇论文为什么重要?

在这篇论文之前,大家已经知道深度神经网络在图像、语音任务上很强。但那时候很多人隐含地相信:

一个泛化性能很好的模型,应该在输入附近比较“平滑”。

换句话说,一张图片稍微改一点点,类别不应该变;模型的预测也不应该突然大变。比如一张狗的照片,把几个像素轻轻挪一下,人眼仍然觉得是狗,模型也应该觉得是狗。

但这篇论文说: 不一定。

它发现,深度网络周围存在大量“盲点”。你可以通过优化方法找到一个非常小的扰动,让图片从模型角度突然变成另一个类别。更惊人的是,这种扰动不是只骗某一个模型,有时还能骗另一个结构不同、训练数据不同的模型。

这就是后来整个 adversarial robustness / 对抗鲁棒性 研究方向的起点之一。


2. 第一个发现:单个神经元不一定是“语义单元”

以前很多解释神经网络的方法会问:

某个隐藏层神经元最喜欢什么图像?

比如拿一个神经元,然后找出最能激活它的输入图像。如果这些图像都像“狗脸”“轮子”“白花”,那人们就会说:这个神经元可能检测“狗脸”或者“白花”。

论文质疑了这个思路。