下面我把这篇 SAP: Privacy-Preserving Fine-Tuning on Language Models with Split-and-Privatize Framework 讲成一份“可以不读原文也能把核心吃透”的版本。先提醒你一件小事:你手里这份是 IJCAI 2025 的 accepted preprint ,页面上明确写了“ Do not cite ,最终版本会出现在 IJCAI 2025 proceedings”

先给一句总括。

这篇论文想解决的是:在 MaaS(Model-as-a-Service,模型即服务) 场景里,用户想拿平台上的大语言模型做私有数据微调,但又不愿把原始文本直接交给服务商。作者提出的 SAP,不是把整个微调过程都做成严格密码学协议,也不是像 DP-SGD 那样在梯度上加噪,而是走一条更“工程化”的路线:

  1. 先把模型切成两半,用户本地拿前几层,服务商保留后几层;
  2. 用户先在本地把私有文本变成中间表示;
  3. 再对这个中间表示做局部扰动;
  4. 但不是所有 token 都一视同仁地加同样的噪声,而是优先保护“不重要 token”,尽量少伤害“对任务有贡献的 token”。

所以,这篇论文最核心的思想其实就一句话:

在 split learning 传输中间表示的框架下,用轻量的 text privatization 保护隐私,再用 token 重要性识别 CTI 去减少无谓的性能损失。


一、论文到底在解决什么问题

作者的出发点很现实。

现在很多用户没有资源自己部署大模型,只能调用平台提供的微调服务。可是一旦要微调,通常就得把私有数据上传到云端。论文明确指出,这些数据里常常有身份信息、人口属性等敏感内容,直接上传存在明显泄露风险。已有工作大致有三条路:

一条是 text privatization(文本私有化) ,也就是先把文本或表示本地扰动后再发出去;

一条是 differentially private fine-tuning(差分隐私微调) ,比如 DP-SGD 那类;

还有一条是 split learning(拆分学习) ,把模型切开,用户只传中间表示,不传原文。

但作者认为,前两类方法往往牺牲太多效用,第三类 split learning 又会暴露中间表示,而中间表示本身可能被做 embedding inversion attack(嵌入反演攻击)attribute inference attack(属性推断攻击)

所以这篇论文的真实问题,不是“如何做绝对安全的微调”,而是:

在 MaaS + PEFT + split learning 的现实约束下,如何把“隐私-效用折中”做得更好。