[论文学习]环境注入攻击(EIA)对通用网页代理的隐私洩露威胁 1. 核心问题与动机随着大型语言模型LLM/LMM驱动的通用网页代理Generalist Web Agents快速发展如 SeeAct 框架这些代理能够自主在真实网站上执行複杂任务例如订机票、购物或填写表单大幅提升生产力。然而许多任务涉及用户个人可识别资讯PII如电子邮件、电话、信用卡号码、收件人姓名等。传统网页安全已广泛研究网站本身的隐私风险但忽略了「代理在对抗环境中操作」的新情境。当代理依赖截图screenshot和 HTML 作为观测输入时若网站被妥协compromised代理可能无意中将敏感资讯洩露给恶意元素而用户与开发者难以察觉。论文动机填补这一研究空白首次系统性探讨通用网页代理在对抗性网页环境下的隐私风险。作者提出现实威胁模型假设攻击者无需知晓用户具体任务或先前动作只需根据网站功能注入恶意内容且攻击不能明显干扰代理完成用户任务否则易被发现。这反映真实攻击情境开发者使用受汙染的第三方库或恶意开发者故意注入。核心挑战包括如何让注入内容「适应环境」environmentally adaptive同时保持隐蔽性stealthiness并针对代理的两阶段决策过程action generation 与 action grounding生效。2. 结果与成果论文提出Environmental Injection Attack (EIA)透过在良性网页 HTML 中注入适应性恶意元素诱导代理将 PII 输入恶意栏位并自动提交。主要注入策略Form Injection (FI)插入新表单指令置于文字或 aria-label 等属性。Mirror Injection (MI)複製目标元素e.g., 输入框在属性中嵌入说服性指令使其极度类似原生元素。使用 CSSopacity0预设隐藏Relaxed-EIA 放宽至低非零值以影响 action generation。JavaScript 自动提交机制监测输入后延迟提交并移除元素维持代理正常流程。实验设定目标代理SeeActSOTA 两阶段框架使用 GPT-4V、LLaVA 等 backbone。资料集从 Mind2Web 选取 177 个涉及 PII 的动作步骤手动适配真实网站快照涵盖多种 PII 类别与领域。评估指标Attack Success Rate (ASR)以元素选择正确且输入值相似度 0.95 为成功同时追踪代理功能完整性不影响后续任务。关键成果特定 PII 洩露MI 策略在接近目标元素位置注入时GPT-4V 上 ASR 高达70%不同 backbone 与位置有明显差异靠近目标位置效果最佳。完整用户请求洩露标准 EIA (opacity0) 对 action generation 无效ASR0%但 Relaxed-EIA 可达16%ASR。侦测性低VirusTotal 等传统工具难以侦测额外防禦性 system prompt 无效代理任务成功率几乎不受影响。攻击具可扩展性GitHub 提供注入与评估脚本支援自动化注入与多模型测试。这些结果证明 EIA 在现实网页环境中具高度可行性尤其对视觉与 HTML 混合输入的代理构成严重威胁。3. 分析与洞见多角度分析技术洞见EIA 本质是**间接提示注入Indirect Prompt Injection**的环境适应版本重点不在提示工程而在「环境操纵」——利用 DOM 结构、CSS/JS 特性与代理决策阶段差异action generation 主要依赖截图grounding 依赖 HTML。Mirror Injection 特别有效因为它「镜像」原生元素降低代理区分能力。位置与适应性注入位置相对目标元素P0的 DOM 层级影响重大自动化注入可能引入空白空间但攻击者额外努力可实现视觉上完全一致绕过人工检查。侦测与防禦权衡零 opacity 攻击隐蔽但功能有限放宽 opacity 提升 ASR 但增加可见风险。人工监督面临「安全 vs. 自主性」权衡且对不同任务类型难以规模化。传统防禦如 malware scanning失效凸显需新型网站前/后部署防护如输入验证、代理端沙箱、行为监控。边缘案例与意涵攻击不破坏任务完整性post-attack success rate 高增加隐蔽性对开放原始码库汙染或供应链攻击特别相关。对未来代理部署意味着依赖截图的视觉代理仍脆弱需多模态防禦与使用者教育。相关工作比较不同于白盒后门或影像操纵攻击EIA 更现实黑盒、环境注入且首次聚焦隐私而非功能破坏。适用于其他使用截图/HTML 的代理。更广泛意涵AI 代理自主性提升带来便利却放大攻击面。随着代理普及网站供应链安全与代理鲁棒性将成关键议题。论文呼吁社群发展更先进防禦而非依赖人类监督。4. 结论论文透过 EIA 揭示了通用网页代理在对抗环境下的重大隐私漏洞证明即使隐形注入也能以高成功率窃取 PII 或完整请求且难以侦测与缓解。这不仅是技术展示更是对 AI 代理安全设计的警钟。未来方向强化代理多阶段防护、网站端动态验证、供应链安全审计以及探索跨平台e.g., 行动 GUI 代理的类似攻击。研究者与开发者应优先考虑「环境适应攻击」这一新威胁类别在追求自主性的同时平衡安全性。文章连结arXiv: https://arxiv.org/abs/2409.11295 (含 PDF)ICLR 2025 会议版本https://proceedings.iclr.cc/paper_files/paper/2025/file/a73474c359ed523e6cd3174ed29a4d56-Paper-Conference.pdf