神经网络属性推测攻击

可以把它先理解成一种“看中间表示猜隐私标签”的攻击。

大白话说：

你把一段文本送进模型之后，模型内部会先把它变成一串向量，也就是 embedding（嵌入向量） 或更深层的 hidden representation（隐藏表示）。

攻击者虽然不一定能直接看到原始文本，但如果能拿到这些中间向量，他就可能再训练一个小神经网络，去猜这段文本背后带着的某种“属性”。

这个属性就叫 attribute（属性），常见例子有：

所以，neural-network-based attribute inference attack 就是：

攻击者用一个神经网络作为攻击模型，把模型泄露出来的中间表示当输入，去预测原始输入样本的某个敏感属性。

再具体一点，它通常怎么做？

你可以把它想成两阶段：

第一阶段，正常模型先处理用户输入。

比如用户输入一句话，LLM 会先输出某层的 embedding 或 hidden state。

第二阶段，攻击者拿这些向量，再喂给一个额外训练出来的分类器。