Anthropic安全白皮书3｜8步落地零信任：智能体身份、工具、内存、供应链，手把手防住AI攻击

发布时间：2026/6/8 18:28:22

前两篇我们讲了AI智能体的威胁、零信任原则、三级成熟度模型。现在到了最实操的部分8个具体步骤从需求分析到日常度量手把手教你落地零信任智能体安全。这份实施工作流来自Anthropic白皮书第IV部分安全架构师和工程师可以直接照着建项目。如果你是创业者或OPC一人公司可以直接跳到最后看“三条最低可行行动清单”。阶段1识别需求做什么先别碰技术坐下来和业务、合规、法务、安全各方明确有哪些监管要求HIPAA、GDPR、FedRAMP、EU AI Act智能体要完成什么业务目标有哪些硬性约束比如数据不能出境、延迟必须100ms产出一份需求清单后续所有决策都回查这份清单。阶段2管理供应链风险智能体的供应链比传统软件更复杂——不仅有代码依赖还有模型、训练数据、MCP服务器。具体动作生成AI-BOM使用OWASP CycloneDX ML-BOM工具记录模型来源、训练数据 lineage、微调参数。自动评估依赖健康度集成OpenSSF Scorecard到CI流水线给每个依赖打分分支保护、模糊测试、签名发布、维护者活跃度等。依赖分数低或无人维护 → 风险。审计依赖树冗余让前沿模型分析你的lockfile找出功能重叠的库比如两个HTTP客户端合并它们减少攻击面。对无人维护的小依赖用模型重写你实际使用的那个子集替代原库。白皮书说这比继续依赖它们更安全。加密签名每个阶段构建、部署、运行时都签名。运行时验证防止部署后被篡改。供应商评估向你的AI供应商问两个问题你们怎么应对AI加速漏洞利用你们自己扫描自己的代码吗白皮书特注MCP服务器尽量自己host在不可变平台上验证代码后自己签名更新也要走同样流程。阶段3定义智能体边界做什么对每个智能体明确四件事允许的操作白名单拒绝所有未列出的操作。禁止的操作黑名单即使权限允许也要在策略层禁止。升级触发条件什么情况下需要暂停等人工批准如高额交易、敏感数据导出、外部通信。作用域限制Least Agency限制每个工具能访问哪些系统、哪些数据、频率、范围。同时估算“爆炸半径”如果这个智能体被完全攻破最坏能造成多大损失用“不可能 vs 繁琐”测试如果你的抑制措施只是限流或多跳那么它一定会被AI攻击者绕过。必要时要拆分智能体。关键原则每个智能体独立身份独立凭据。如果你把一个智能体拆成多个但给它们相同的凭据等于没拆。阶段4防御提示注入具体技术输入隔离将所有自然语言输入用户文本、上传文档、抓取的网页视为不可信。用明确的定界符Spotlighting技术分隔指令和内容。微软实验证明Spotlighting将间接注入成功率从50%降到2%。宪法分类器在提示前后增加AI分类器扫描操纵企图。Anthropic的实现拦下了95%的越狱尝试且误拒率增加很小。减少攻击面限制谁/什么能与智能体交互。如果是内部工具只允许来自可信IP或经过强认证的调用。阶段5安全工具访问工具白名单每个智能体只能调用明确列出的工具。拒绝未列出工具。能力限制一个工具即使在白名单内也要限制其能力。例如邮件工具允许读但不允许发送数据库工具只允许SELECT。参数验证在调用工具前校验参数范围、类型、是否包含可疑内容。可以用PreToolUse钩子在客户端做同时在服务端也做。沙箱执行工具运行在容器gVisor或微VM中限制网络、文件系统、系统调用。特别要实施速率限制和熔断防止资源耗尽攻击但注意限速只是延迟不是硬屏障。人工批准高风险工具删除数据、发送外部邮件、修改配置需等待人工确认且提供清晰的操作描述。阶段6保护智能体凭据底线要求禁止静态API Key禁止共享服务账户密码。攻击者用AI扫描代码库这些秘密会被几秒内发现。短生命周期令牌使用OAuth2或类似机制令牌有效期几分钟自动刷新。这是Foundation级别的最低标准。硬件绑定凭据对生产系统和敏感内部工具凭据应绑定到HSM/TPM即使主机被攻破也无法导出凭据材料。对人类用户使用防钓鱼2FAFIDO2/passkey短信验证码连Foundation都不合格。凭据隔离每个智能体实例有自己独立的凭据。如果共享一个被盗所有使用该凭据的智能体全暴露。即时访问JIT只在需要时授予权限用后立即撤销。这很难实现但一旦做到攻击者连“偷缓存凭据”的机会都没有。ABAC结合属性身份、资源敏感度、时间、地点、风险分动态决策。当智能体行为偏离基线时ABAC可以立即降权或拒绝。阶段7保护智能体内存会话隔离每个会话独立上下文子智能体也拥有自己的隔离窗口不继承父会话历史。上下文完整性验证每次检索内存时校验哈希和源标签。检测到篡改拒绝使用并告警。保留策略设置数据存活时间TTL自动过期。短保留期降低投毒风险。版本化内存回滚存储内存快照发现投毒后可回滚到已知良好状态。白皮书建议预先测试回滚流程。阶段8度量重要指标先度量这两项驻留时间异常发生到人类感知的时间。目标关键系统1小时。覆盖率被调查的告警比例。如果很多告警无人看说明需要自动化初筛。可解释性能否追溯到每条决策的输入链对受监管行业这是强制要求。行为漂移定期对比智能体的工具使用模式、输出分布、决策分布。突然的漂移可能意味着缓慢投毒。检测速度从行为偏离到告警发出的时间。白皮书建议用模型做告警的自动初筛下篇文章详述。写在最后给创业者和OPC的三条最低可行行动清单你没有企业级的安全团队但以下三步可以立刻做1. 把静态API Key换成短生命周期令牌。用OAuth2客户端凭证流令牌有效期不超过15分钟。不同智能体用不同凭据。这一步能挡住最基础的凭据窃取。2. 给智能体加沙箱。如果你用Claude Code它自带沙箱文件系统隔离、网络隔离。如果自研用Docker gVisor限制容器只能访问必要资源。处理用户输入或网页内容的智能体沙箱是强制项。3. 实施最小权限人工审批。给智能体的数据库账号只用SELECT邮件账号只读收件箱。任何写操作或外发操作先通过webhook请求你批准。另外每天看一眼日志智能体调用了哪些工具有没有异常频率超过阈值自动发邮件告警。白皮书最后一句话“那些基础扎实的组织——AI扫描找不到几个bug、智能体从第一天就为失陷而设计——才是AI时代的安全赢家。”你不必完美。但要从今天开始。关键词标签#智能体实施工作流 #AI供应链安全 #AI-BOM #OpenSSF #提示注入防御 #JIT权限 #内存隔离 #驻留时间 #创业安全清单下期预告智读致用Anthropic安全白皮书4用AI对抗AI自动化安全运营的实战方法相关阅读Anthropic安全白皮书2三级成熟度模型你的AI智能体该配哪级安全Anthropic安全白皮书1零信任 for AI AgentsAI时代的智能体安全不能再靠“防火墙”了

MC68HC705C8A驱动DS2430A：经典8位MCU与1-Wire EEPROM实战指南

1. 项目概述与核心价值在嵌入式开发这个行当里混了十几年，我经手过无数项目，从简单的智能开关到复杂的工业控制器，一个深刻的体会是：项目的成败，往往不在于你用了多么前沿的芯片，而在于你是否真正“吃透”了…

2026/6/8 18:27:17 阅读更多

MinGW-w64终极指南：Windows平台最完整的GCC编译器套件

MinGW-w64终极指南：Windows平台最完整的GCC编译器套件【免费下载链接】mingw-w64 (Unofficial) Mirror of mingw-w64-code 项目地址: https://gitcode.com/gh_mirrors/mi/mingw-w64 你是否在Windows上寻找一个强大且免费的C/C开发环境？MinGW-w64…

2026/6/8 18:26:36 阅读更多

059、肤色还原专项调优：记忆色、颜色偏好建模与主观评价标准

059、肤色还原专项调优：记忆色、颜色偏好建模与主观评价标准一、从一次“翻车”的调试说起去年Q2，某款旗舰机在东南亚市场上市后，社交媒体上炸了锅——用户拍出来的肤色普遍偏黄，尤其是年轻女性自拍，脸像涂了一层姜黄粉。我们连夜拉会，ISP团队、算法团队、甚至市场部都…

2026/6/8 18:26:36 阅读更多

PySyft联邦学习实战：隐私计算全链路解析

发散创新：基于 PySyft 的联邦学习隐私计算实战——从本地训练到安全聚合全链路解析在金融风控、医疗联合建模、跨运营商用户画像等场景中，数据孤岛与合规压力并存。隐私计算不是“数据不出域”的权宜之计，而是构建可信AI基础设施的底层范式。…

2026/6/8 19:36:23 阅读更多

CloudCompare M3C2插件避坑指南：摄影测量点云精度分析的正确姿势

CloudCompare M3C2插件深度解析：摄影测量点云精度分析的实战精要摄影测量技术正在重塑三维数据采集的格局，而CloudCompare中的M3C2插件则是处理这类数据的瑞士军刀。不同于传统激光扫描点云，摄影测量生成的点云具有独特的误差特性——这种非各…

2026/6/8 19:35:42 阅读更多

全程用 AI 做一款商业级手游 · EP6 留存系统：让玩家明天还回来

EP4/EP5 把变现做出来了。但变现有个前提——得有人来玩。一款 F2P 游戏的引擎是两个齿轮咬合：留存供给流量，变现把流量变成钱。这一集（EP6）做留存这半边，三件套：离线收益、每日连签、主题皮肤。这一集的…

2026/6/8 19:35:22 阅读更多

从‘打散’数据集到VC维：手把手图解Rademacher复杂度在模型评估中的核心作用

从‘打散’数据集到VC维：手把手图解Rademacher复杂度在模型评估中的核心作用在机器学习理论中，模型复杂度的度量一直是核心课题。当我们面对一个分类问题时，如何判断模型的假设空间是否足够丰富，又不会过于复杂导致过拟合&#xf…

2026/6/8 19:34:41 阅读更多

2026年AI求职必看：掌握这3类岗位核心技能，年薪百万不是梦！收藏版

本文详细拆解了AI行业三大热门岗位——算法工程师、大模型应用开发、AI产品经理的真实招聘要求和面试准备重点。文章指出，AI市场正经历两极分化，企业需求从"会调模型"转向"能落地产品"，复合型人才激增。各岗位核心能力包…

2026/6/8 19:34:21 阅读更多

手把手教你用CANdb++ Editor（Vector）从零创建DBC文件，并导入Autosar配置工具链

从零构建DBC文件：CANdb Editor与Autosar工具链实战指南当你第一次面对汽车电子控制单元（ECU）开发时，CAN总线通信就像一门外语——而DBC文件就是你的翻译词典。本文不是又一篇泛泛而谈的概念介绍，而是一份真正的手把手操…

2026/6/8 19:34:21 阅读更多

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现【免费下载链接】amlogic-s9xxx-armbian Supports running Armbian on Amlogic, Allwinner, and Rockchip devices. Support a311d, s922x, s905x3, s905x2, s912, s905d, s905x, …

2026/6/8 0:00:25 阅读更多

Python Scrapy 爬虫实战进阶系列（一）：轻量化数据存储 - 数据精准写入 SQLite 数据库

前言在 Python 爬虫开发领域中，Scrapy 作为高性能、高可扩展性的异步爬虫框架，是行业内采集结构化数据的首选工具。在中小型爬虫项目、本地数据采集、轻量化数据存储场景中，SQLite 无需独立服务、单文件存储、原生兼容 Python 的特性&#…

2026/6/8 0:00:45 阅读更多

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案【免费下载链接】btrfs WinBtrfs - an open-source btrfs driver for Windows 项目地址: https://gitcode.com/gh_mirrors/bt/btrfs 还在为Windows无法访问Linux Btrfs分区而烦恼吗？你是…

2026/6/8 0:03:08 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/8 0:06:11 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/8 0:06:11 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/8 0:06:11 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/8 9:43:25 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/8 9:43:23 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/8 9:43:30 阅读更多

相关文章

MC68HC705C8A驱动DS2430A：经典8位MCU与1-Wire EEPROM实战指南

MinGW-w64终极指南：Windows平台最完整的GCC编译器套件

059、肤色还原专项调优：记忆色、颜色偏好建模与主观评价标准

PySyft联邦学习实战：隐私计算全链路解析

CloudCompare M3C2插件避坑指南：摄影测量点云精度分析的正确姿势

全程用 AI 做一款商业级手游 · EP6 留存系统：让玩家明天还回来

从‘打散’数据集到VC维：手把手图解Rademacher复杂度在模型评估中的核心作用

2026年AI求职必看：掌握这3类岗位核心技能，年薪百万不是梦！收藏版

手把手教你用CANdb++ Editor（Vector）从零创建DBC文件，并导入Autosar配置工具链

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现

Python Scrapy 爬虫实战进阶系列（一）：轻量化数据存储 - 数据精准写入 SQLite 数据库

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因