这个 analytic Gaussian mechanism,中文通常就叫 解析型高斯机制,你可以把它理解成:
它本质上还是“往结果里加高斯噪声(Gaussian noise,高斯噪声)”的差分隐私机制,只不过它不是用老版本那个偏保守的上界公式去定噪声大小,而是直接用高斯分布本身的精确性质来校准噪声。 这样通常能在同样的 $(\varepsilon,\delta)-DP$ 下加更少的噪声,所以更准。这个思路最经典地来自 Balle 和 Wang 2018 的工作。
先讲大白话。
你已经知道普通的 Gaussian mechanism 了:
有个函数 $f(D)$ 要发布,数据集 $D$ 改一个人的数据,输出最多变动 $\Delta$(这就是敏感度,sensitivity,敏感度)。那我们就发布
$M(D)=f(D)+Z,\quad Z\sim \mathcal N(0,\sigma^2 I)$
也就是在真实答案上加一个正态分布噪声。问题不在“加不加高斯噪声”,而在“$\sigma$ 到底该取多大”。
老教材里常见的做法是直接用一个很出名的充要性不强的充分条件:
$\sigma \ge \frac{\Delta \sqrt{2\ln(1.25/\delta)}}{\varepsilon}$
这个式子好用、好记,但它只是一个方便的上界,不是最紧的,所以很多时候会让你加得比实际需要更多。Balle 和 Wang 的解析型高斯机制做的事,就是把这个“粗一点的保守公式”换成“直接解高斯分布对应的精确隐私约束”。他们指出经典公式在高隐私区域并不紧,而且也不能自然覆盖所有 $\varepsilon$ 范围;解析校准则是直接基于 Gaussian CDF(cumulative distribution function,累积分布函数)来定方差。
你可以把它想成这样:
普通 Gaussian mechanism 的校准像是“为了保证安全,我拿一个比较粗的尺子量了一下,所以余量留大了”;
analytic Gaussian mechanism 则像是“我直接按这道题的真实几何结构精确算,所以能卡得更紧”。
它解决的是:
给定目标隐私参数 $(\varepsilon,\delta)$ 和 $L_2$ 敏感度 $\Delta$,怎样找到“刚好够用”的高斯噪声标准差 $\sigma$?
这里每个符号我都解释一下: