258 人赞同了该文章
在应用差分隐私进行隐私保护中,需要处理的数据主要分为两大类,一类是 数值型 的数据,比如说数据集中已婚人士的数量;另外一类是 非数值型 的数据,比如喜欢人数最多的颜色。这两者,主体分别是 数量(连续数据) 和 颜色(离散数据)
数值型 的数据,一般采用 Laplace 或者 高斯 机制,对得到数值结果加入随机噪声即可实现差分隐私;非数值型 的数据,一般采用 指数 机制并引入一个 打分函数 ,对每一种可能的输出都得到一个分数,归一化之后作为查询返回的概率值。比如现在有 $\left{\right. 红 色 : 20 , 绿 色 : 30 , 紫 色 : 50 \left.\right}$ ,将数量作为 打分函数 ,那么得到对应输出概率为 $\left{\right. 红 : 3 e - 7 , 绿 色 : 4 e - 5 , 紫 色 : 0.999 \left.\right}$ ,当接收到一个查询之后,就以对应的概率值返回结果。下面分别从数值型和非数值型两个方面对三种机制进行介绍。
首先定义一下敏感度,它代表的意思是对于两个 兄弟数据集(只相差一个元素) $D , D^{'}$ ,一个查询函数 $f \left(\right. \cdot \left.\right)$ 最大的变化范围,比如查询数量,敏感度就是1。

敏感度是和查询函数相关的,而这里的定义主要是为了后面满足差分隐私的证明。
我们可以有以下洞察:
数学可见: