标题AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security来源arXiv, 2605.29801v1️文章简介研究问题如何解决开放世界AI智能体面临的新型安全风险及现有对齐框架部署成本高的问题主要贡献论文提出了轻量可扩展的AgentDoG 1.5框架仅用千条样本训练小模型即实现媲美前沿大模型的安全防护效果。重点思路更新三维安全分类体系针对Codex和OpenClaw场景扩展风险源、失败模式及现实危害标签构建ATBench基准家族以支持细粒度诊断。设计分类引导的数据引擎利用影响力函数净化数据筛选出约1k条高价值样本结合思维链增强与软平衡策略构建高质量训练集。采用SFT与GDPO强化学习两阶段训练通过多维奖励解耦优化使0.8B至8B参数量的轻量模型具备精准的安全判断与归因能力。构建有限状态模拟环境替代Docker容器将RL训练资源开销降低两个数量级支持单机万级并发并利用模型过滤SFT数据及提供RL奖励信号。部署无训练在线护栏系统在智能体回复前进行轨迹级审计实时拦截跨步骤累积风险兼顾低延迟与高安全性。分析总结AgentDoG 1.5-4B在R-Judge和ATBench上准确率分别达92.2%和72.4%性能对标GPT-5.4等闭源模型显著优于LlamaGuard等传统护栏。细粒度诊断能力突出平均诊断得分55.2%远超通用大模型证明专用轨迹级监督比单纯扩大模型规模更有效。在SFT阶段使用AgentDoG过滤数据可将危害评分从57.49降至20.32同时保持函数调用能力联合SFT与RL训练进一步提升了安全与效用的平衡。作为在线护栏时4B模型将OpenClaw的不安全交付率从56.25%降至18.75%且首字延迟低于0.3秒验证了实际部署的可行性。轻量化环境在万级并发下内存占用稳定在2.5GB以内证明了该框架在资源受限条件下的极高可扩展性。个人观点论文打破了“安全对齐依赖大模型”的固有认知通过精细化的数据提纯与结构化诊断任务将复杂的安全推理能力成功蒸馏至极小参数模型。
上海AI Lab:轻量级智能体安全对齐框架
发布时间:2026/6/9 9:47:43
标题AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security来源arXiv, 2605.29801v1️文章简介研究问题如何解决开放世界AI智能体面临的新型安全风险及现有对齐框架部署成本高的问题主要贡献论文提出了轻量可扩展的AgentDoG 1.5框架仅用千条样本训练小模型即实现媲美前沿大模型的安全防护效果。重点思路更新三维安全分类体系针对Codex和OpenClaw场景扩展风险源、失败模式及现实危害标签构建ATBench基准家族以支持细粒度诊断。设计分类引导的数据引擎利用影响力函数净化数据筛选出约1k条高价值样本结合思维链增强与软平衡策略构建高质量训练集。采用SFT与GDPO强化学习两阶段训练通过多维奖励解耦优化使0.8B至8B参数量的轻量模型具备精准的安全判断与归因能力。构建有限状态模拟环境替代Docker容器将RL训练资源开销降低两个数量级支持单机万级并发并利用模型过滤SFT数据及提供RL奖励信号。部署无训练在线护栏系统在智能体回复前进行轨迹级审计实时拦截跨步骤累积风险兼顾低延迟与高安全性。分析总结AgentDoG 1.5-4B在R-Judge和ATBench上准确率分别达92.2%和72.4%性能对标GPT-5.4等闭源模型显著优于LlamaGuard等传统护栏。细粒度诊断能力突出平均诊断得分55.2%远超通用大模型证明专用轨迹级监督比单纯扩大模型规模更有效。在SFT阶段使用AgentDoG过滤数据可将危害评分从57.49降至20.32同时保持函数调用能力联合SFT与RL训练进一步提升了安全与效用的平衡。作为在线护栏时4B模型将OpenClaw的不安全交付率从56.25%降至18.75%且首字延迟低于0.3秒验证了实际部署的可行性。轻量化环境在万级并发下内存占用稳定在2.5GB以内证明了该框架在资源受限条件下的极高可扩展性。个人观点论文打破了“安全对齐依赖大模型”的固有认知通过精细化的数据提纯与结构化诊断任务将复杂的安全推理能力成功蒸馏至极小参数模型。