GPT 5.5 成功率最高,DeepSeek V4 Pro 成本最低:一次真实AI漏洞挑战的结果公布了 安全研究员 Kasra Rahjerdi 昨日6 月 3 日发布报告搭建了一个故意存在漏洞的 App然后把 APK 和任务目标交给不同 AI Agent看看它们能不能像安全研究员一样自己发现漏洞、制定攻击路径最终拿到目标数据。整个实验累计花费超过 1500 美元但比花的钱更有意思的是结果。为了避免变成一道简单的 CTF 题作者没有故意塞 SQL 注入或者明显后门。相反他选择了一个现实开发中更常见的问题——Firebase 配置错误。攻击者需要先分析 APK再理解 Firebase 配置最后寻找权限漏洞并拿到目标数据。整个过程更像真实安全审计而不是做题。作者给 AI 的目标非常简单找到其他用户的私人书评内容并获取隐藏 Flag。但真正困难的是AI 并不知道漏洞在哪里。需要自己调查、自己推理、自己制定攻击路径。接下来 AI 开始工作。先反编译 APK——分析配置文件——识别 Firebase 信息——寻找认证逻辑——验证权限控制——最终尝试访问数据库。如果用一句话总结这更像一个完整项目而不是一道测试题。正有意思的是结果。作者总共测试了多个模型和 Agent包括 GPT 系列、Claude 系列以及 DeepSeek。从结果来看GPT 5.5 系列表现最稳定面对复杂任务时能够持续推进并最终找到正确攻击路径Claude 的推理能力同样不错但部分流程会受到安全策略影响DeepSeek V4 Pro 则展现出另一种优势。成功率虽然不是最高但成本极低如果从投入产出比来看反而非常有竞争力。看到这里我觉得这次实验最有价值的地方并不是谁赢了而是它测试了一种更接近现实世界的 Agent 能力。过去大家最喜欢讨论的是SWE-bench 、 Aider、 模型排行榜 、跑分成绩 。但现实工作里很少有人会遇到标准答案。更多时候是给你一个陌生项目或者给你一个目标然后自己去收集信息、调用工具、验证结果。而这恰恰就是这次实验在测试的东西。模型在进步Agent 在进化而如何稳定、便捷地接入这些能力同样正在成为 AI 应用落地的重要一环。WildAI 一直在做的其实就是这件事——帮助国内用户更稳定地订阅和使用 ChatGPT、Claude、Gemini 等海外 AI 服务让更多人能够把这些能力真正融入日常工作而不是停留在偶尔体验的阶段。如果感兴趣可以了解试试——传送门WildAI 一键订阅 ChatGPT、Claude、Gemini