可以把它先理解成一种“看中间表示猜隐私标签”的攻击。
大白话说:
你把一段文本送进模型之后,模型内部会先把它变成一串向量,也就是 embedding(嵌入向量) 或更深层的 hidden representation(隐藏表示)。
攻击者虽然不一定能直接看到原始文本,但如果能拿到这些中间向量,他就可能再训练一个小神经网络,去猜这段文本背后带着的某种“属性”。
这个属性就叫 attribute(属性),常见例子有:
所以,neural-network-based attribute inference attack 就是:
攻击者用一个神经网络作为攻击模型,把模型泄露出来的中间表示当输入,去预测原始输入样本的某个敏感属性。
再具体一点,它通常怎么做?
你可以把它想成两阶段:
第一阶段,正常模型先处理用户输入。
比如用户输入一句话,LLM 会先输出某层的 embedding 或 hidden state。
第二阶段,攻击者拿这些向量,再喂给一个额外训练出来的分类器。