详细介绍这篇论文,我有点不想看了


这篇其实很适合“我不想看了但想抓住要害”的读法:我会按“它到底解决了什么问题 → 核心直觉 → 方法公式 → 实验结论 → 现在怎么看”来讲,不按原文顺序硬翻译。


FGSM 其实是 看 loss 对输入的梯度方向,然后每个像素都朝着让 loss 增大的方向推一小步,为什么就能实现对抗样本的生成?


对,就是这句话背后还有一层关键逻辑:

FGSM 不是“随便让 loss 变大一点”,而是在一个很小的扰动范围内,近似求出了“最能让 loss 变大的输入改动”。

我们一步一步拆。


首先,对抗攻击的目标其实是这个:

$$ \max_{\|\delta\|_\infty \le \epsilon} J(\theta, x+\delta, y) $$

这里每个符号的意思是:

x 是原始输入,比如一张图片。

\delta 是我们要加到输入上的扰动。

x+\delta 是扰动后的图片,也就是候选对抗样本。

\epsilon 是每个像素允许改动的最大幅度。

\|\delta\|_\infty \le \epsilon 的意思是:扰动里每一个像素的改变量都不能超过 \epsilon 。这个叫 L-infinity norm,无穷范数约束 ,简单说就是“单个像素最多只能动这么多”。

J(\theta, x+\delta, y) 是模型在扰动图片上的 loss。

\theta 是模型参数。