L-BFGS | Notion

详细介绍这篇论文,我不想读了

这篇论文你可以把它理解成： “深度网络看起来很聪明，但它的内部表示和局部稳定性都很反直觉。” 论文标题是 Intriguing properties of neural networks ，作者包括 Christian Szegedy、Wojciech Zaremba、Ilya Sutskever、Ian Goodfellow 等。它最出名的贡献是：系统展示了后来被称为 对抗样本（adversarial examples） 的现象。

这篇论文主要讲两件事。

第一， 神经网络高层里的“单个神经元”未必有特殊语义，真正有语义的可能是整个表示空间。

第二， 神经网络对某些非常小、肉眼几乎看不出来的输入扰动极其脆弱。 也就是说，一张图本来被正确分类，稍微加一点精心设计的噪声之后，人看起来几乎没变，但模型可能会非常自信地分类错。

1. 这篇论文为什么重要？

在这篇论文之前，大家已经知道深度神经网络在图像、语音任务上很强。但那时候很多人隐含地相信：

一个泛化性能很好的模型，应该在输入附近比较“平滑”。

换句话说，一张图片稍微改一点点，类别不应该变；模型的预测也不应该突然大变。比如一张狗的照片，把几个像素轻轻挪一下，人眼仍然觉得是狗，模型也应该觉得是狗。

但这篇论文说： 不一定。

它发现，深度网络周围存在大量“盲点”。你可以通过优化方法找到一个非常小的扰动，让图片从模型角度突然变成另一个类别。更惊人的是，这种扰动不是只骗某一个模型，有时还能骗另一个结构不同、训练数据不同的模型。

这就是后来整个 adversarial robustness / 对抗鲁棒性 研究方向的起点之一。

2. 第一个发现：单个神经元不一定是“语义单元”

以前很多解释神经网络的方法会问：

某个隐藏层神经元最喜欢什么图像？

比如拿一个神经元，然后找出最能激活它的输入图像。如果这些图像都像“狗脸”“轮子”“白花”，那人们就会说：这个神经元可能检测“狗脸”或者“白花”。

论文质疑了这个思路。