SAP | Notion

下面我把这篇 SAP: Privacy-Preserving Fine-Tuning on Language Models with Split-and-Privatize Framework 讲成一份“可以不读原文也能把核心吃透”的版本。先提醒你一件小事：你手里这份是 IJCAI 2025 的 accepted preprint ，页面上明确写了“ Do not cite ，最终版本会出现在 IJCAI 2025 proceedings”

先给一句总括。

这篇论文想解决的是：在 MaaS（Model-as-a-Service，模型即服务） 场景里，用户想拿平台上的大语言模型做私有数据微调，但又不愿把原始文本直接交给服务商。作者提出的 SAP，不是把整个微调过程都做成严格密码学协议，也不是像 DP-SGD 那样在梯度上加噪，而是走一条更“工程化”的路线：

先把模型切成两半，用户本地拿前几层，服务商保留后几层；
用户先在本地把私有文本变成中间表示；
再对这个中间表示做局部扰动；
但不是所有 token 都一视同仁地加同样的噪声，而是优先保护“不重要 token”，尽量少伤害“对任务有贡献的 token”。

所以，这篇论文最核心的思想其实就一句话：

在 split learning 传输中间表示的框架下，用轻量的 text privatization 保护隐私，再用 token 重要性识别 CTI 去减少无谓的性能损失。

一、论文到底在解决什么问题

作者的出发点很现实。

现在很多用户没有资源自己部署大模型，只能调用平台提供的微调服务。可是一旦要微调，通常就得把私有数据上传到云端。论文明确指出，这些数据里常常有身份信息、人口属性等敏感内容，直接上传存在明显泄露风险。已有工作大致有三条路：

一条是 text privatization（文本私有化） ，也就是先把文本或表示本地扰动后再发出去；

一条是 differentially private fine-tuning（差分隐私微调） ，比如 DP-SGD 那类；

还有一条是 split learning（拆分学习） ，把模型切开，用户只传中间表示，不传原文。

但作者认为，前两类方法往往牺牲太多效用，第三类 split learning 又会暴露中间表示，而中间表示本身可能被做 embedding inversion attack（嵌入反演攻击） 或 attribute inference attack（属性推断攻击） 。

所以这篇论文的真实问题，不是“如何做绝对安全的微调”，而是：

在 MaaS + PEFT + split learning 的现实约束下，如何把“隐私-效用折中”做得更好。