🔒 PII与LLM隐私保护实战指南

在大语言模型（LLM）深度渗透业务的今天，我们在享受 AI 带来的效率提升的同时，也面临着个人可识别信息（PII）泄露的严峻挑战。从企业将用户数据喂给大模型训练，到用户在智能助手中输入敏感信息，PII 泄露的风险无处不在，一旦发生不仅会引发合规风险，还会对企业声誉造成不可挽回的损失。本文将从 PII 的基础概念入手，分析 LLM 场景下的 PII 风险，并提供可落地的保护实践指南，帮助研发与安全团队构建安全的 LLM 应用。

📖 一、什么是 PII？

1.1 PII 的定义

PII = Personally Identifiable Information（个人身份可识别信息），指任何能够单独或结合其他信息识别出具体个人身份的数据。不同地区和法规对 PII 的定义略有差异，但核心都是能够定位到特定个人的信息。

1.2 PII 的分类

类型	示例	风险等级
直接识别类	姓名、身份证号、护照号、手机号、邮箱、银行卡号	🔴 高
间接识别类	IP 地址、设备 ID、车牌号、精确地理位置、公司 + 职位	🟡 中
敏感个人信息	生物识别（人脸、指纹）、医疗健康信息、财务信息、行为轨迹	🔴 极高

1.3 为什么 PII 在 AI 时代更危险？

传统系统中，PII 主要存在于数据库和日志中，风险相对可控。但在 LLM 场景下，风险被成倍放大：

Prompt 泄露：用户可能直接将身份证号、病历等敏感信息输入 LLM
训练数据记忆：模型可能记住并复述训练集中的真实个人信息
RAG 知识库污染：向量数据库中存储的文档包含未脱敏的客户数据
输出幻觉：模型可能 “编造” 看似真实的个人信息，引发合规问题

graph LR
    A[用户输入] --> B[Prompt泄露风险]
    A --> C[训练数据]
    C --> D[模型记忆风险]
    E[RAG知识库] --> F[知识库污染风险]
    G[模型输出] --> H[输出幻觉风险]
    I[API密钥泄露] --> J[数据访问风险]

⚠️ 二、LLM 场景下的 PII 风险全景

2.1 典型泄露案例

三星半导体数据泄露事件：2023 年 3 月，三星工程师在使用 ChatGPT 处理工作时，将专有半导体设备的故障诊断代码、内部会议纪要等敏感数据粘贴到 ChatGPT 中，导致数据被 OpenAI 收集，存在泄露风险。
银行智能客服泄露事件：2023 年 12 月，某银行智能客服系统将一位用户的银行卡号、身份证号等敏感信息，在另一位用户咨询转账风险案例时作为案例回复，导致用户 PII 泄露。
联邦大模型 PII 提取攻击：哈尔滨工业大学深圳、快手科技等机构的研究显示，攻击者可利用本地数据作为 “钥匙”，从联邦大模型中提取其他机构的敏感 PII，最高可达 56.6% 的恢复率，包括患者的姓名、地址、出生日期等信息。
AI 对话数据泄露事件：数百万 AI 对话被泄露到 LeakLake 网站，其中包含用户的创业计划、公司内部技术架构、个人信息等，用户在不知情的情况下将对话公开，且数据无法撤回。

2.2 风险类型

用户输入泄露：用户误输入的密码、身份证号等 PII 被智能体缓存，在后续对话中被无意输出
训练数据泄露：LLM 在训练过程中记忆了训练数据中的 PII，通过诱导性提问可以让模型输出这些敏感信息
跨会话污染：多用户共享 LLM 实例时，一个用户的 PII 可能被另一个用户获取，尤其是在上下文缓存未被正确隔离的情况下
API 密钥泄露风险：如果 LLM 的 API 密钥被泄露，攻击者可以访问上传的文件、缓存的数据，从而获取其中的 PII，还可能导致账单被恶意使用
模型记忆与输出泄露：LLM 可能在回答用户问题时不经意地输出训练数据中的 PII，例如用户询问 “张三的联系方式”，模型可能直接返回张三的电话、邮箱等

🛡️ 三、PII 保护的实践指南

3.1 常用脱敏方法

在将数据输入 LLM 之前，需要对 PII 进行脱敏处理，常见的脱敏方法如下：

方法	可逆性	适用场景	注意事项
掩码（Masking）	部分可逆	前端展示、日志输出、客服界面	仍可能被关联识别（如保留后 4 位）
替换 / 令牌化（Tokenization）	可逆	数据分析、多系统交互、LLM 处理	映射表 / 密钥是核心安全点，需严格管控
哈希（Hash）	不可逆	去重、关联分析	可枚举字段易被撞库破解（如手机号）
加密（Encryption）	可逆	存储 / 传输保护	密钥管理复杂，存在密钥泄露风险
匿名化（Anonymization）	不可逆	统计分析、公开数据发布	需做重识别风险评估，避免过度匿名化导致数据失去价值

你可以根据实际需求选择合适的脱敏方法，参考以下选择流程：

graph LR
    A[需要保留数据格式？] -->|是| B[掩码Masking]
    A -->|否| C[需要还原原始数据？]
    C -->|是| D[替换/令牌化Tokenization]
    C -->|否| E[需要不可逆处理？]
    E -->|是| F[哈希Hash/匿名化Anonymization]
    E -->|否| G[加密Encryption]

3.2 防护策略

数据最小化原则：只收集和保留支持模型目标的必要信息，避免收集不必要的 PII。在将数据输入 LLM 之前，先过滤掉不需要的敏感信息。
分级脱敏策略：基于风险评估对不同敏感程度的 PII 采取不同的脱敏方式，例如对直接标识符进行强脱敏（如替换或匿名化），对间接标识符进行弱脱敏（如掩码）。
PII 检测与过滤：在将数据输入 LLM 之前，使用 PII 检测工具识别敏感信息，然后进行自动脱敏。可以使用基于规则的方法（如正则表达式）或基于机器学习的命名实体识别（NER）模型来检测 PII。
上下文隔离：在多用户场景下，确保不同用户的会话上下文被隔离，避免跨会话的 PII 泄露。
隐私预算管理：在使用差分隐私等技术时，合理管理隐私预算，避免预算快速耗尽或重要查询精度不足，采用动态预算分配和查询优先级管理。
密钥轮换：如果使用加密或替换的方法，定期轮换密钥，降低密钥泄露的风险，采用自动化密钥轮换和版本管理。

3.3 工具推荐

UiPath PII 动态掩码：在数据到达 LLM 之前进行假名化，用上下文占位符替换 PII 实体，LLM 返回响应后自动将原始 PII 重新水化到输出中，支持多种 PII 类型的检测和掩码。
Salesforce Einstein Trust Layer：采用基于模式和基于字段的方法，识别并掩码提示中的敏感 PII/PCI 数据，将脱敏作为 “信任层” 集成到 CRM 系统中。
PII Firewall Edge：可以快速集成到 LLM 调用流程中，对用户输入的 PII 进行脱敏，提供 API 接口，支持多种 PII 类型的检测和替换。
Protecto AI：提供基于策略的脱敏规则，支持自定义规则，例如禁止输出包含患者姓名和诊断的内容，禁止输出 16 位数字（信用卡号）等。

🏢 四、企业实践建议

4.1 系统设计建议

日志层强制脱敏：在日志框架层做统一过滤，确保所有日志中的 PII 都被脱敏，而不是依赖开发人员的自觉。
测试环境禁止使用真实数据：使用数据生成工具或脱敏后的数据副本进行测试，避免真实 PII 在测试环境中泄露。
接入 AI 前增加 PII 过滤层：在调用模型 API 前增加一层过滤，流程为：原始数据 → PII 检测 → 脱敏 → 模型调用，确保进入模型的数据已经经过脱敏处理。
数据分级管理：将数据分为公开数据、内部数据、敏感数据、高敏数据，不同级别采取不同的保护策略，例如高敏数据需要进行强脱敏，且只有授权人员可以访问。

4.2 流程规范建议

企业可以参考以下流程构建完整的 PII 保护体系：

graph LR
    A[数据收集] --> B[数据最小化过滤]
    B --> C[PII检测]
    C --> D[脱敏处理]
    D --> E[LLM调用]
    E --> F[输出检测]
    F --> G[日志脱敏存储]
    H[审计监控] --> I[异常检测]
    I --> J[应急响应]

员工安全培训：对员工进行安全培训，提高员工对 LLM 数据收集特性的认识，避免员工无意识地将敏感信息输入 LLM。
隐私政策与处理活动记录：制定清晰的隐私政策，记录 PII 的处理活动，满足合规要求，例如 GDPR 的知情权要求。
审计与监控：对 LLM 的使用进行审计和监控，检测异常的 PII 访问和泄露行为，定期进行安全评估。
应急响应计划：制定 PII 泄露的应急响应计划，在发生泄露时能够快速响应，包括通知用户、报告监管机构、采取补救措施等。

💡 五、总结

PII 的保护不仅是数据字段的问题，更是系统设计的问题。在 AI 时代，数据流动越来越频繁，LLM 的使用也越来越广泛，保护 PII 需要从技术、流程、人员等多个方面入手。通过采用合适的脱敏方法、防护策略和工具，企业和个人可以安全地使用 LLM，享受 AI 带来的便利，同时避免 PII 泄露带来的合规风险和安全问题。

📚 速查表

脱敏方法	可逆性	适用场景	核心要点
掩码 Masking	部分	前端、日志、客服	注意部分可逆性风险
替换 Tokenization	是	LLM处理、数据分析	严格管理映射表/密钥
哈希 Hash	否	去重、关联	警惕可枚举字段撞库
加密 Encryption	是	存储、传输	复杂的密钥管理
匿名化 Anonymization	否	统计分析、公开数据	做重识别风险评估

标签： #PII #LLM #数据隐私 #AI安全 #脱敏

希望本文能帮助你在构建 LLM 应用时更好地保护个人隐私信息。如有问题或建议，欢迎交流讨论！