简介

这篇工作可以概括成一句话：

它告诉你：把大语言模型拆开做私有微调（split learning，拆分学习），并不天然安全；即使用户没把原始文本直接发给服务器，服务器还是可能靠中间激活和梯度，把私有训练数据重建回来。

你可以把这件事想成：用户手里拿着模型前几层和后几层，云服务器拿着中间大部分层。用户把自己的私有文本喂给前几层，得到一个“中间表示”，论文里叫 smashed data，你可以先把它理解成“被模型压缩过的一段内部特征”。然后这个特征发给服务器继续算；反向传播时，服务器还会拿到一些梯度。很多人会直觉觉得：

“我又没把原文发出去，只发了一坨向量，应该安全吧？”

这篇论文专门挑战的就是这个直觉。

作者的核心观点是，LLM + 拆分学习 这个组合，比传统图像分类里的 split learning 更危险，因为它多了两个很“要命”的性质。

第一个性质叫 Not-too-far property。你可以把它理解成：

虽然模型做了 fine-tuning（微调），但它离预训练模型并没有“远到面目全非”。也就是说，预训练权重里保留了很多足够有用的语言结构信息，所以攻击者哪怕拿不到客户端当前那一刻的精确参数，只知道模型结构 + 预训练权重，也已经很接近“白盒攻击”了。作者把这种情况叫 semi-white-box access，也就是“半白盒访问”。

第二个性质叫 auto-regressive nature，就是大语言模型那种“根据前面的 token 预测下一个 token”的自回归性质。训练时标签其实就是把输入序列左移一位，所以输入和标签天然强相关。这样一来，攻击者不但能利用前向传过去的 smashed data(中间表示)，还能利用反向传回来的梯度；而且在 split learning 场景里，顺序信息不像传统梯度攻击那样容易丢掉，于是重建会更准。

基于这两个观察，作者提出了 BiSR，全名是 Bidirectional Semi-white-box Reconstruction。名字很长，但你可以把它拆成两层理解：

第一层是 SIP，也就是一个学习式初始化。

它把客户端底部那几层看成一个“编码器”，然后攻击者自己拿预训练权重仿一个近似的 Bottom，再训练一个“解码器”去把 smashed data 还原成文本。这个过程有点像训练一个“内部表示 → 原句子”的翻译器。它先给你一个“已经有点像原文”的初稿。

第二层是 BRE，也就是双向增强。

有了 SIP 给的初稿之后，作者再做两件事：

一件是让假设出来的 embedding 去匹配真实 smashed data；

另一件是让假设出来的标签去匹配真实梯度。

于是前向信息和反向信息一起用，像两股力量把重建结果往真答案上拉。这就是它名字里 bidirectional（双向）的意思。

如果再继续通俗一点，你可以把整个攻击想成：

“先用一个会猜句子的模型，粗略猜出你写的大概内容；