简介

这篇工作可以概括成一句话:

它告诉你:把大语言模型拆开做私有微调(split learning,拆分学习),并不天然安全;即使用户没把原始文本直接发给服务器,服务器还是可能靠中间激活和梯度,把私有训练数据重建回来。

你可以把这件事想成:用户手里拿着模型前几层和后几层,云服务器拿着中间大部分层。用户把自己的私有文本喂给前几层,得到一个“中间表示”,论文里叫 smashed data,你可以先把它理解成“被模型压缩过的一段内部特征”。然后这个特征发给服务器继续算;反向传播时,服务器还会拿到一些梯度。很多人会直觉觉得:

“我又没把原文发出去,只发了一坨向量,应该安全吧?”

这篇论文专门挑战的就是这个直觉。

作者的核心观点是,LLM + 拆分学习 这个组合,比传统图像分类里的 split learning 更危险,因为它多了两个很“要命”的性质。

第一个性质叫 Not-too-far property。你可以把它理解成:

虽然模型做了 fine-tuning(微调),但它离预训练模型并没有“远到面目全非”。也就是说,预训练权重里保留了很多足够有用的语言结构信息,所以攻击者哪怕拿不到客户端当前那一刻的精确参数,只知道模型结构 + 预训练权重,也已经很接近“白盒攻击”了。作者把这种情况叫 semi-white-box access,也就是“半白盒访问”。

第二个性质叫 auto-regressive nature,就是大语言模型那种“根据前面的 token 预测下一个 token”的自回归性质。训练时标签其实就是把输入序列左移一位,所以输入标签天然强相关。这样一来,攻击者不但能利用前向传过去的 smashed data(中间表示),还能利用反向传回来的梯度;而且在 split learning 场景里,顺序信息不像传统梯度攻击那样容易丢掉,于是重建会更准。

基于这两个观察,作者提出了 BiSR,全名是 Bidirectional Semi-white-box Reconstruction。名字很长,但你可以把它拆成两层理解:

第一层是 SIP,也就是一个学习式初始化

它把客户端底部那几层看成一个“编码器”,然后攻击者自己拿预训练权重仿一个近似的 Bottom,再训练一个“解码器”去把 smashed data 还原成文本。这个过程有点像训练一个“内部表示 → 原句子”的翻译器。它先给你一个“已经有点像原文”的初稿。

第二层是 BRE,也就是双向增强

有了 SIP 给的初稿之后,作者再做两件事:

一件是让假设出来的 embedding 去匹配真实 smashed data;

另一件是让假设出来的标签去匹配真实梯度。

于是前向信息和反向信息一起用,像两股力量把重建结果往真答案上拉。这就是它名字里 bidirectional(双向)的意思。

如果再继续通俗一点,你可以把整个攻击想成:

“先用一个会猜句子的模型,粗略猜出你写的大概内容;