解析型高斯机制

这个 analytic Gaussian mechanism，中文通常就叫 解析型高斯机制，你可以把它理解成：

它本质上还是“往结果里加高斯噪声（Gaussian noise，高斯噪声）”的差分隐私机制，只不过它不是用老版本那个偏保守的上界公式去定噪声大小，而是直接用高斯分布本身的精确性质来校准噪声。这样通常能在同样的 $(\varepsilon,\delta)-DP$ 下加更少的噪声，所以更准。这个思路最经典地来自 Balle 和 Wang 2018 的工作。

先讲大白话。

你已经知道普通的 Gaussian mechanism 了：

有个函数 $f(D)$ 要发布，数据集 $D$ 改一个人的数据，输出最多变动 $\Delta$（这就是敏感度，sensitivity，敏感度）。那我们就发布

$M(D)=f(D)+Z,\quad Z\sim \mathcal N(0,\sigma^2 I)$

也就是在真实答案上加一个正态分布噪声。问题不在“加不加高斯噪声”，而在“$\sigma$ 到底该取多大”。

老教材里常见的做法是直接用一个很出名的充要性不强的充分条件：

$\sigma \ge \frac{\Delta \sqrt{2\ln(1.25/\delta)}}{\varepsilon}$

这个式子好用、好记，但它只是一个方便的上界，不是最紧的，所以很多时候会让你加得比实际需要更多。Balle 和 Wang 的解析型高斯机制做的事，就是把这个“粗一点的保守公式”换成“直接解高斯分布对应的精确隐私约束”。他们指出经典公式在高隐私区域并不紧，而且也不能自然覆盖所有 $\varepsilon$ 范围；解析校准则是直接基于 Gaussian CDF（cumulative distribution function，累积分布函数）来定方差。

你可以把它想成这样：

普通 Gaussian mechanism 的校准像是“为了保证安全，我拿一个比较粗的尺子量了一下，所以余量留大了”；

analytic Gaussian mechanism 则像是“我直接按这道题的真实几何结构精确算，所以能卡得更紧”。

一、它解决的核心问题是什么

它解决的是：

给定目标隐私参数 $(\varepsilon,\delta)$ 和 $L_2$ 敏感度 $\Delta$，怎样找到“刚好够用”的高斯噪声标准差 $\sigma$？

这里每个符号我都解释一下：

$D,D'$：两个相邻数据集，只差一个人的数据
$f(D)$：你想发布的统计量或向量