详细介绍这篇论文,我有点不想看了
这篇其实很适合“我不想看了但想抓住要害”的读法:我会按“它到底解决了什么问题 → 核心直觉 → 方法公式 → 实验结论 → 现在怎么看”来讲,不按原文顺序硬翻译。
FGSM 其实是 看 loss 对输入的梯度方向,然后每个像素都朝着让 loss 增大的方向推一小步,为什么就能实现对抗样本的生成?
对,就是这句话背后还有一层关键逻辑:
FGSM 不是“随便让 loss 变大一点”,而是在一个很小的扰动范围内,近似求出了“最能让 loss 变大的输入改动”。
我们一步一步拆。
首先,对抗攻击的目标其实是这个:
$$ \max_{\|\delta\|_\infty \le \epsilon} J(\theta, x+\delta, y) $$
这里每个符号的意思是:
x 是原始输入,比如一张图片。
\delta 是我们要加到输入上的扰动。
x+\delta 是扰动后的图片,也就是候选对抗样本。
\epsilon 是每个像素允许改动的最大幅度。
\|\delta\|_\infty \le \epsilon 的意思是:扰动里每一个像素的改变量都不能超过 \epsilon 。这个叫 L-infinity norm,无穷范数约束 ,简单说就是“单个像素最多只能动这么多”。
J(\theta, x+\delta, y) 是模型在扰动图片上的 loss。
\theta 是模型参数。