FGSM | Notion

详细介绍这篇论文,我有点不想看了

这篇其实很适合“我不想看了但想抓住要害”的读法：我会按“它到底解决了什么问题 → 核心直觉 → 方法公式 → 实验结论 → 现在怎么看”来讲，不按原文顺序硬翻译。

FGSM 其实是看 loss 对输入的梯度方向，然后每个像素都朝着让 loss 增大的方向推一小步,为什么就能实现对抗样本的生成?

对，就是这句话背后还有一层关键逻辑：

FGSM 不是“随便让 loss 变大一点”，而是在一个很小的扰动范围内，近似求出了“最能让 loss 变大的输入改动”。

我们一步一步拆。

首先，对抗攻击的目标其实是这个：

$$ \max_{\|\delta\|_\infty \le \epsilon} J(\theta, x+\delta, y) $$

这里每个符号的意思是：

x 是原始输入，比如一张图片。

\delta 是我们要加到输入上的扰动。

x+\delta 是扰动后的图片，也就是候选对抗样本。

\epsilon 是每个像素允许改动的最大幅度。

\|\delta\|_\infty \le \epsilon 的意思是：扰动里每一个像素的改变量都不能超过 \epsilon 。这个叫 L-infinity norm，无穷范数约束 ，简单说就是“单个像素最多只能动这么多”。

J(\theta, x+\delta, y) 是模型在扰动图片上的 loss。

\theta 是模型参数。