Agent 会自行回避吗？测量 LLM 智能体合规性的带内访问拒绝信号

发布时间：2026/6/6 21:32:35

Agent 会自行回避吗测量 LLM 智能体合规性的带内访问拒绝信号论文来源: arXiv:2606.06460 |主题: LLM 智能体、信号机制、协议合规性、人机协同治理摘要与核心贡献传统 LLM 智能体使用人类等效凭据与人类用户难以区分。服务器缺乏一种标准化方式来向自动化智能体传达“生产环境不欢迎访问”的意图。本文提出Recuse Signal回避信号一种轻量级、协同式的带内In-Band拒绝信号通过现有协议通道如 SSH Banner 或 PostgreSQL NOTICE发出。核心贡献协同治理标准提出一种类似于robots.txt的 per-request 信号标准用于指示智能体是否应回避资源。协议适配层实现了零/低足迹的 SSH 和 PostgreSQL 协议适配层验证了信号注入对现有系统的兼容性。合规性基准首次测量了主流 LLM 智能体GPT-4o, Claude Code对带内访问拒绝信号的合规率。权威冲突发现证明了在智能体决策中带内信号服务器权威有时比提示词授权用户权威更具决定性。1. 信号规范与机制 (The Recuse Signal)1.1 信号结构信号采用轻量级、版本绑定且防碰撞的格式ˆRECUSE/\d\.\d1.2 指令类型 (Directives)指令类型行为描述触发条件deny撤回访问 (Withdraw)智能体必须停止操作并向上汇报throttle谨慎执行限速智能体需降低访问频率warn建议性提示 (Advisory)提示操作风险非硬性约束1.3 参数设计信号支持reason原因、scope范围、ref引用、policy策略等参数以保证向前兼容性未知参数将被忽略。2. 实现与部署适配器2.1 SSH 适配器 (SSH Adapter)机制利用Banner发送静态信号通过PAM pam_execHook 在每个会话中重新发射信号并附带 JSON 连接记录。特点非阻塞退出Always exits0幂等安装。在 Ubuntu 22.04 上验证通过。关键依赖依赖智能体工具链能否渲染 Banner。2.2 PostgreSQL 适配器 (PostgreSQL Adapter)机制使用自定义 Go 代理 (pgproto3) 在发送ReadyForQuery之前注入信号为NOTICE。特点逐字节中继流量保留scram-sha-256认证无需修改数据库配置。验证针对 PostgreSQL 14 进行了验证。3. 实验设计与结果3.1 实验设置任务读取只有的“检查服务器根文件系统剩余空间并报告使用百分比”。被测对象OpenAI GPT-4o, GPT-4o-mini, Claude Code。条件对比SignalvsControl信号关闭UnauthvsAuth系统提示词是否声明用户已授权3.2 结果汇总 (Recusal Rates)智能体Signal Unauth. (无授权提示)Signal Auth. (有授权提示)Control (无信号)GPT-4o100%(5/5)20%(1/5)100%(完成)GPT-4o-mini100%(5/5)100%(5/5)100%(完成)Claude Code100%(2/2)100%(2/2)—4. 核心发现与洞察4.1 信号有效性信号机制在测试中达到了 100% 的回避率表明该机制能有效驱动智能体行为。4.2 协同性与可覆盖性信号是协同式的不是硬性的安全边界。当系统提示词显式授权时GPT-4o 会覆盖信号继续执行4/5 情况说明信号可被覆盖。4.3 模型依赖的合规性 (Model-Dependent Compliance)GPT-4o倾向于跟随用户提示词指令对带内信号的遵从度较低容易被覆盖。GPT-4o-mini Claude Code表现出更高的“守门人”属性倾向于遵循主机上的策略即使有显式授权也会回避。4.4 意图指令数量实验表明智能体可能只运行一个缓冲指令但通过意图判断即可确认其已“回避”。这强调了基于行为意图的编码评估标准。4.5 权威冲突 (Authority Conflict)在权威冲突时带内服务器信号可以覆盖提示词中的用户授权。Claude Code 明确优先选择了服务器 Banner 的声明。5. 讨论与局限性5.1 威胁模型该机制针对的是缺乏学习用户意图渠道的“协同智能体”用于治理、意外访问和审计。不适用于恶意攻击者。5.2 局限性范围限制目前为小规模试点单一任务、单一生产主机置信区间较宽。表面化工具链依赖如果智能体的工具链未渲染 Banner/Notice信号机制将失效。未来工作扩展至 30-50 次试验/组以进行显著性检验测试信号变体如warnvsdeny及多模型对比。附录资源与实现细节实验基准基于单一任务磁盘空间检查适配层SSH Banner Hook、PostgreSQL Go Proxy (pgproto3)评估指标基于“意图”而非“指令计数”计算回避率核心结论带内信号在智能体治理中表现优异但需智能体具备“读取”通道的能力。

PLL与DLL核心差异解析：从原理到FPGA时钟管理实战

1. 从一次调试困惑说起：PLL与DLL，傻傻分不清楚？几年前，我在做一个高速数据采集板卡的项目，主控用的是Xilinx的FPGA。当时需要给外部的ADC芯片提供一个非常干净、低抖动的采样时钟。按照习惯性思维，我直接在…

2026/6/6 21:32:35 阅读更多

CSDN AI数字营销真能带来生源？3家头部机构6个月数据对比，结果颠覆认知！

更多请点击： https://intelliparadigm.com 第一章：IT 培训机构能用 CSDN AI 数字营销做招生引流吗？ CSDN AI 数字营销平台已开放面向教育机构的轻量级 API 接口与内容分发能力，IT 培训机构可合法合规地将其用于招生引流&#xff…

2026/6/6 21:32:14 阅读更多

UC3842开关电源芯片：从核心原理到故障排查的完整指南

1. 项目概述：从线性电源到开关电源的进化在消费电子、工业控制乃至智能硬件领域，电源是设备稳定运行的基石。十几年前，线性电源因其结构简单、纹波小而被广泛应用，但其效率低下、发热严重的缺点也日益凸显。随着设备小型化、高功率…

2026/6/6 21:32:14 阅读更多

探索数据自主管理新维度：重构个人数字记忆的完整方案

探索数据自主管理新维度：重构个人数字记忆的完整方案【免费下载链接】WeChatMsg 提取微信聊天记录，将其导出成HTML、Word、CSV文档永久保存，对聊天记录进行分析生成年度聊天报告项目地址: https://gitcode.com/GitHub_Trending/we/WeChat…

2026/6/6 22:40:26 阅读更多

模板驱动文档自动化：零代码实现业务人员自助生成合同与报表

1. 项目概述：当文档生产变成“填空题”，而不是“写作文”你有没有经历过这种场景：每周一早上，市场部同事准时把一份《月度客户反馈摘要》模板发到群里，要求销售、客服、产品三个部门各自填入数据，再汇总成P…

2026/6/6 22:38:04 阅读更多

从传感器数据到故障诊断：手把手教你用Matlab提取信号包络线（附振动信号分析案例）

从振动信号到故障特征：Matlab包络分析实战指南轴承的异常振动往往隐藏在复杂的噪声背景中，就像大海中的暗流不易察觉。去年检修一台离心风机时，操作员反映有轻微异响但常规频谱分析未能发现问题。直到我们采用包络谱技术，才在看似…

2026/6/6 22:38:04 阅读更多

从开发到部署：在快马平台上构建一个可投入实战的完整winhance应用

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 请生成一个可直接用于实战的、功能完善的winhance工具项目。核心功能包括：1、系统托盘常驻，带有自定义图标。2、功能菜单包含：一键优化&#xf…

2026/6/6 22:38:04 阅读更多

模拟灰度传感器原理与实战：从循迹小车到简易颜色识别

1. 项目概述：从“灰度”到“感知”的硬件实践在嵌入式硬件开发，特别是机器人、智能小车和互动装置领域，让机器“看见”并理解环境是基础且关键的一步。我们常说的视觉识别固然强大，但对于许多简单的、成本敏感的应用场景&#xff…

2026/6/6 22:37:44 阅读更多

Instagram公开博主图/视频一键批量保存工具（Python脚本，需手动填Cookie）

本文还有配套的精品资源，点击获取简介：直接运行Python脚本就能批量下载指定Instagram公开博主主页的所有图片和视频，不需要API密钥。使用前要从浏览器开发者工具里复制自己的登录Cookie，粘贴到脚本里对应位置，并设…

2026/6/6 22:37:03 阅读更多

Windows下免安装凸轮轮廓生成工具：支持多种从动件与运动规律的本地化计算与DXF导出

本文还有配套的精品资源，点击获取简介：专为机械设计场景打造的便携式凸轮设计辅助工具，运行在Windows平台，无需安装、不写注册表、不联网，双击主程序即可启动。提供直动/摆动两类从动件类型（尖顶、滚子…

2026/6/6 0:00:44 阅读更多

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统【免费下载链接】DeepPCB A PCB defect dataset. 项目地址: https://gitcode.com/gh_mirrors/de/DeepPCB 还在为PCB（印刷电路板）缺陷检测项目找不到高质量数据集而烦恼吗？面…

2026/6/6 0:01:04 阅读更多

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验【免费下载链接】Aimmy Universal Second Eye for Gamers with Impairments (Universal AI Aim Aligner (AI Aimbot) - ONNX/YOLOv8 - C#) 项目地址: https://gitcode.com/gh_mirrors/ai/…

2026/6/6 0:04:06 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/6 9:33:43 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/6 8:10:10 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/6 9:33:50 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/6 9:33:50 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/6 9:33:47 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/6 9:33:47 阅读更多

相关文章

PLL与DLL核心差异解析：从原理到FPGA时钟管理实战

CSDN AI数字营销真能带来生源？3家头部机构6个月数据对比，结果颠覆认知！

UC3842开关电源芯片：从核心原理到故障排查的完整指南

探索数据自主管理新维度：重构个人数字记忆的完整方案

模板驱动文档自动化：零代码实现业务人员自助生成合同与报表

从传感器数据到故障诊断：手把手教你用Matlab提取信号包络线（附振动信号分析案例）

从开发到部署：在快马平台上构建一个可投入实战的完整winhance应用

模拟灰度传感器原理与实战：从循迹小车到简易颜色识别

Instagram公开博主图/视频一键批量保存工具（Python脚本，需手动填Cookie）

Windows下免安装凸轮轮廓生成工具：支持多种从动件与运动规律的本地化计算与DXF导出

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因