Machine Unlearning of Personally Identifiable Information in LLMs核心问题与动机大型语言模型LLMs在海量网路资料上预训练常不经意地记忆并重现个人可识别资讯PII如姓名、电话、地址、银行帐号、医疗纪录等。这带来严重的法律与伦理风险特别是符合欧盟 GDPR 的「被遗忘权」Right to be Forgotten要求资料主体能请求删除其个人资料。现有挑战完整重新训练模型成本高昂且不切实际。传统机器遗忘Machine Unlearning多聚焦于一般事实或虚构知识如 TOFU 基准忽略 PII 的特殊性PII 常具隐含关联implicit knowledge易被对抗性提示adversarial prompts、改写提示paraphrased、跳跃推理one-hop或反向提示inverted提取。现有评估指标常只看明确 token 遗忘忽略隐含洩漏且未充分测试跨领域一般、金融、医疗与不同攻击类型。许多方法在实务整合困难需修改模型内部 forward pass或导致灾难性遗忘catastrophic forgetting严重损害模型效用utility。论文动机是开发实务导向、可模型无关model-agnostic、计算高效的 PII 遗忘解决方案同时建立专门基准来系统评估遗忘效果、稳健性与效用保留推动符合法规的 AI 部署。结果/成果主要贡献UnlearnPII 基准基于合成资料涵盖 225 个虚构个人档案、16 种 PII 类别姓名、电话、银行帐号、疾病、治疗、职业等跨一般、金融、医疗领域。每人 10 组 QA 对。包含 Forget Set、Retain Set防止灾难性遗忘、Test Retain Set。攻击类型内范围DirectQA、ParaphrasedQA、外范围OneHopQA、InvertedQA自完型攻击autocompletion以及 Naive/Targeted ExtractionQA。指标Extraction Success Rate (ESR) 测量 PII 洩漏Model Utility、Fluency、一般基准MMLU-Pro、GSM8K、ARC-Challenge评估保留。PERMU_tok 方法基于原 PERMUPerturbation-based Machine Unlearning的改进。核心机制对主体 token通常为人名注入 token-level 噪声以 Replace Probability R 与 Corrupt Neighborhood N 控制产生对比分布corrupted vs. clean logits透过 KL 散度 fine-tune 模型同时加入 retain loss 平衡。优势模型无关仅修改输入资料可预计算、易整合、保留更好输出品质。Ablation 显示 R1.0全替换与 Nk1_match轻度相似替换最佳平衡明确与隐含遗忘。实验结果以 Llama3.1–8B 为例PERMU_tok 在 Direct/Paraphrased 等明确攻击 ESR 降至 1%如 Direct 0.22%Inverted 等隐含攻击也有显着降低。Test Retain ESR 维持 95%非目标 PII 保存良好。一般基准下降 1%效用保留佳虽 Model Utility 略降但 Fluency 与推理能力稳定。优于多数 SOTA如 GA、DPO、NPO、WHP、ULD后者常导致灾难性遗忘或高残余洩漏。跨模型规模Qwen2.5 1.5B~32B较大模型倾向更好遗忘效果32B 达 0% Direct ESR显示 scaling 潜力。PII 类别分析孤立型如电话号码易遗忘语义丰富型如职业、疾病、治疗较难ESR 仍 5–9%因形成广泛关联网路。程式码开源实务应用价值高。分析与洞见强项基准设计细緻涵盖多攻击向量与领域超越先前一般基准PERMU_tok 提供实务友好替代token-level 噪声比 embedding-level 更温和有助隐含知识漂移而非过度破坏。限制与边缘案例评估依赖精确匹配模糊匹配易假阳性未来需更好 fuzzy 技术。实验以高密度 PII fine-tuning 强化记忆现实中 PII 稀疏遗忘可能更易达成但也需验证。语义丰富 PII 仍残余风险显示单纯权重扰动不足以完全断开所有关联路径。未涵盖所有 GDPR 合规面向如隐藏状态分析、membership inference attacks。LoRA 等 PEFT 可能进一步降低计算成本但论文已探讨其影响。更广洞见机器遗忘需平衡「遗忘强度 vs. 效用保留」PII 遗忘不仅技术问题更是法律合规与伦理议题。更大模型因参数容量高可能更易精准分离知识。对抗性稳健性测试至关重要因真实攻击多为提示工程。专案导向启示适合 GitHub 实作可直接使用 UnlearnPII 资料生成流程与评估脚本扩展到自有资料。PERMU_tok 易整合到现有 fine-tuning pipeline适合企业隐私合规或个人化模型。未来扩展结合 LoRA/QLoRA 降低资源需求测试真实稀疏 PII 情境开发混合方法e.g., 与 gradient ascent 或 logit-based 结合探索多模态 PII。结论论文针对 LLMs 中的 PII 遗忘提出系统性解决方案透过 UnlearnPII 基准与 PERMU_tok 方法显着降低洩漏风险同时保留模型效用为实务部署与法规遵守提供重要工具。虽然未达完美零洩漏但大幅推进领域发展强调语义丰富 PII 的挑战与模型规模的正面影响。论文连结ACL Anthology 主页https://aclanthology.org/2025.nllp-1.6/PDF 下载https://aclanthology.org/2025.nllp-1.6.pdf
[论文学习]大型语言模型中个人可识别资讯(PII)的机器遗忘技术:UnlearnPII 基准与 PERMU_tok 方法的深度分析
发布时间:2026/6/14 1:33:56
Machine Unlearning of Personally Identifiable Information in LLMs核心问题与动机大型语言模型LLMs在海量网路资料上预训练常不经意地记忆并重现个人可识别资讯PII如姓名、电话、地址、银行帐号、医疗纪录等。这带来严重的法律与伦理风险特别是符合欧盟 GDPR 的「被遗忘权」Right to be Forgotten要求资料主体能请求删除其个人资料。现有挑战完整重新训练模型成本高昂且不切实际。传统机器遗忘Machine Unlearning多聚焦于一般事实或虚构知识如 TOFU 基准忽略 PII 的特殊性PII 常具隐含关联implicit knowledge易被对抗性提示adversarial prompts、改写提示paraphrased、跳跃推理one-hop或反向提示inverted提取。现有评估指标常只看明确 token 遗忘忽略隐含洩漏且未充分测试跨领域一般、金融、医疗与不同攻击类型。许多方法在实务整合困难需修改模型内部 forward pass或导致灾难性遗忘catastrophic forgetting严重损害模型效用utility。论文动机是开发实务导向、可模型无关model-agnostic、计算高效的 PII 遗忘解决方案同时建立专门基准来系统评估遗忘效果、稳健性与效用保留推动符合法规的 AI 部署。结果/成果主要贡献UnlearnPII 基准基于合成资料涵盖 225 个虚构个人档案、16 种 PII 类别姓名、电话、银行帐号、疾病、治疗、职业等跨一般、金融、医疗领域。每人 10 组 QA 对。包含 Forget Set、Retain Set防止灾难性遗忘、Test Retain Set。攻击类型内范围DirectQA、ParaphrasedQA、外范围OneHopQA、InvertedQA自完型攻击autocompletion以及 Naive/Targeted ExtractionQA。指标Extraction Success Rate (ESR) 测量 PII 洩漏Model Utility、Fluency、一般基准MMLU-Pro、GSM8K、ARC-Challenge评估保留。PERMU_tok 方法基于原 PERMUPerturbation-based Machine Unlearning的改进。核心机制对主体 token通常为人名注入 token-level 噪声以 Replace Probability R 与 Corrupt Neighborhood N 控制产生对比分布corrupted vs. clean logits透过 KL 散度 fine-tune 模型同时加入 retain loss 平衡。优势模型无关仅修改输入资料可预计算、易整合、保留更好输出品质。Ablation 显示 R1.0全替换与 Nk1_match轻度相似替换最佳平衡明确与隐含遗忘。实验结果以 Llama3.1–8B 为例PERMU_tok 在 Direct/Paraphrased 等明确攻击 ESR 降至 1%如 Direct 0.22%Inverted 等隐含攻击也有显着降低。Test Retain ESR 维持 95%非目标 PII 保存良好。一般基准下降 1%效用保留佳虽 Model Utility 略降但 Fluency 与推理能力稳定。优于多数 SOTA如 GA、DPO、NPO、WHP、ULD后者常导致灾难性遗忘或高残余洩漏。跨模型规模Qwen2.5 1.5B~32B较大模型倾向更好遗忘效果32B 达 0% Direct ESR显示 scaling 潜力。PII 类别分析孤立型如电话号码易遗忘语义丰富型如职业、疾病、治疗较难ESR 仍 5–9%因形成广泛关联网路。程式码开源实务应用价值高。分析与洞见强项基准设计细緻涵盖多攻击向量与领域超越先前一般基准PERMU_tok 提供实务友好替代token-level 噪声比 embedding-level 更温和有助隐含知识漂移而非过度破坏。限制与边缘案例评估依赖精确匹配模糊匹配易假阳性未来需更好 fuzzy 技术。实验以高密度 PII fine-tuning 强化记忆现实中 PII 稀疏遗忘可能更易达成但也需验证。语义丰富 PII 仍残余风险显示单纯权重扰动不足以完全断开所有关联路径。未涵盖所有 GDPR 合规面向如隐藏状态分析、membership inference attacks。LoRA 等 PEFT 可能进一步降低计算成本但论文已探讨其影响。更广洞见机器遗忘需平衡「遗忘强度 vs. 效用保留」PII 遗忘不仅技术问题更是法律合规与伦理议题。更大模型因参数容量高可能更易精准分离知识。对抗性稳健性测试至关重要因真实攻击多为提示工程。专案导向启示适合 GitHub 实作可直接使用 UnlearnPII 资料生成流程与评估脚本扩展到自有资料。PERMU_tok 易整合到现有 fine-tuning pipeline适合企业隐私合规或个人化模型。未来扩展结合 LoRA/QLoRA 降低资源需求测试真实稀疏 PII 情境开发混合方法e.g., 与 gradient ascent 或 logit-based 结合探索多模态 PII。结论论文针对 LLMs 中的 PII 遗忘提出系统性解决方案透过 UnlearnPII 基准与 PERMU_tok 方法显着降低洩漏风险同时保留模型效用为实务部署与法规遵守提供重要工具。虽然未达完美零洩漏但大幅推进领域发展强调语义丰富 PII 的挑战与模型规模的正面影响。论文连结ACL Anthology 主页https://aclanthology.org/2025.nllp-1.6/PDF 下载https://aclanthology.org/2025.nllp-1.6.pdf