详细介绍这篇论文,我不想读了
这篇论文你可以把它理解成: “深度网络看起来很聪明,但它的内部表示和局部稳定性都很反直觉。” 论文标题是 Intriguing properties of neural networks ,作者包括 Christian Szegedy、Wojciech Zaremba、Ilya Sutskever、Ian Goodfellow 等。它最出名的贡献是:系统展示了后来被称为 对抗样本(adversarial examples) 的现象。
这篇论文主要讲两件事。
第一, 神经网络高层里的“单个神经元”未必有特殊语义,真正有语义的可能是整个表示空间。
第二, 神经网络对某些非常小、肉眼几乎看不出来的输入扰动极其脆弱。 也就是说,一张图本来被正确分类,稍微加一点精心设计的噪声之后,人看起来几乎没变,但模型可能会非常自信地分类错。
在这篇论文之前,大家已经知道深度神经网络在图像、语音任务上很强。但那时候很多人隐含地相信:
一个泛化性能很好的模型,应该在输入附近比较“平滑”。
换句话说,一张图片稍微改一点点,类别不应该变;模型的预测也不应该突然大变。比如一张狗的照片,把几个像素轻轻挪一下,人眼仍然觉得是狗,模型也应该觉得是狗。
但这篇论文说: 不一定。
它发现,深度网络周围存在大量“盲点”。你可以通过优化方法找到一个非常小的扰动,让图片从模型角度突然变成另一个类别。更惊人的是,这种扰动不是只骗某一个模型,有时还能骗另一个结构不同、训练数据不同的模型。
这就是后来整个 adversarial robustness / 对抗鲁棒性 研究方向的起点之一。
以前很多解释神经网络的方法会问:
某个隐藏层神经元最喜欢什么图像?
比如拿一个神经元,然后找出最能激活它的输入图像。如果这些图像都像“狗脸”“轮子”“白花”,那人们就会说:这个神经元可能检测“狗脸”或者“白花”。
论文质疑了这个思路。