GPT 5.5 成功率最高，DeepSeek V4 Pro 成本最低：一次真实AI漏洞挑战的结果公布了

发布时间：2026/6/6 23:45:48

安全研究员 Kasra Rahjerdi 昨日6 月 3 日发布报告搭建了一个故意存在漏洞的 App然后把 APK 和任务目标交给不同 AI Agent看看它们能不能像安全研究员一样自己发现漏洞、制定攻击路径最终拿到目标数据。整个实验累计花费超过 1500 美元但比花的钱更有意思的是结果。为了避免变成一道简单的 CTF 题作者没有故意塞 SQL 注入或者明显后门。相反他选择了一个现实开发中更常见的问题——Firebase 配置错误。攻击者需要先分析 APK再理解 Firebase 配置最后寻找权限漏洞并拿到目标数据。整个过程更像真实安全审计而不是做题。作者给 AI 的目标非常简单找到其他用户的私人书评内容并获取隐藏 Flag。但真正困难的是AI 并不知道漏洞在哪里。需要自己调查、自己推理、自己制定攻击路径。接下来 AI 开始工作。先反编译 APK——分析配置文件——识别 Firebase 信息——寻找认证逻辑——验证权限控制——最终尝试访问数据库。如果用一句话总结这更像一个完整项目而不是一道测试题。正有意思的是结果。作者总共测试了多个模型和 Agent包括 GPT 系列、Claude 系列以及 DeepSeek。从结果来看GPT 5.5 系列表现最稳定面对复杂任务时能够持续推进并最终找到正确攻击路径Claude 的推理能力同样不错但部分流程会受到安全策略影响DeepSeek V4 Pro 则展现出另一种优势。成功率虽然不是最高但成本极低如果从投入产出比来看反而非常有竞争力。看到这里我觉得这次实验最有价值的地方并不是谁赢了而是它测试了一种更接近现实世界的 Agent 能力。过去大家最喜欢讨论的是SWE-bench 、 Aider、模型排行榜、跑分成绩。但现实工作里很少有人会遇到标准答案。更多时候是给你一个陌生项目或者给你一个目标然后自己去收集信息、调用工具、验证结果。而这恰恰就是这次实验在测试的东西。模型在进步Agent 在进化而如何稳定、便捷地接入这些能力同样正在成为 AI 应用落地的重要一环。WildAI 一直在做的其实就是这件事——帮助国内用户更稳定地订阅和使用 ChatGPT、Claude、Gemini 等海外 AI 服务让更多人能够把这些能力真正融入日常工作而不是停留在偶尔体验的阶段。如果感兴趣可以了解试试——传送门WildAI 一键订阅 ChatGPT、Claude、Gemini

Notepad2-mod：如何用这款轻量级编辑器替代Windows记事本提升300%效率

Notepad2-mod：如何用这款轻量级编辑器替代Windows记事本提升300%效率【免费下载链接】notepad2-mod LOOKING FOR DEVELOPERS - Notepad2-mod, a Notepad2 fork, a fast and light-weight Notepad-like text editor with syntax highlighting 项目地址: https://g…

2026/6/6 23:45:08 阅读更多

别再只配接口了！H3C防火墙三层聚合后ping不通的排查指南（附安全策略详解）

H3C防火墙三层聚合故障排查实战：从Ping不通到安全策略深度解析当你按照标准教程完成H3C防火墙的三层链路聚合配置后，发现设备间依然无法ping通，这种挫败感我深有体会。上周深夜，我就在数据中心遇到过完全相同的场景——所有配置看…

2026/6/6 23:44:48 阅读更多

90+图片格式兼容性挑战？ImageGlass让你告别格式不支持的烦恼

90图片格式兼容性挑战？ImageGlass让你告别格式不支持的烦恼【免费下载链接】ImageGlass 🏞 A fast, open-source, modern image viewer for 90 formats – including WEBP, GIF, SVG, AVIF, JXL, HEIC and more – built for smooth browsing across Wi…

2026/6/6 23:44:48 阅读更多

如何用FModel轻松提取游戏资源：3个步骤开启MOD创作之旅

如何用FModel轻松提取游戏资源：3个步骤开启MOD创作之旅【免费下载链接】FModel Unreal Engine Archives Explorer 项目地址: https://gitcode.com/gh_mirrors/fm/FModel 你是否曾经好奇过，那些炫酷的游戏皮肤、精美的武器模型、独特的建筑场景是…

2026/6/7 0:57:20 阅读更多

终极网盘直链下载助手：突破九大平台下载限制的完整指南

终极网盘直链下载助手：突破九大平台下载限制的完整指南【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼…

2026/6/7 0:54:38 阅读更多

Kimi k2.6 LeetCode 3041. 修改数组后最大化数组中的连续元素数目 JavaScript实现

这道题的核心思路是排序动态规划。思路分析1. 排序：先将数组排序，方便处理连续关系。2. 动态规划：设 dp[v] 表示以值 v 结尾的最长连续序列长度。对于每个元素 x：- 不变：值为 x，需要前面有以 x-1 结尾的…

2026/6/7 0:54:38 阅读更多

WeMod Pro完整解锁指南：三步免费激活高级功能的终极方案

WeMod Pro完整解锁指南：三步免费激活高级功能的终极方案【免费下载链接】Wand-Enhancer Advanced UX and interoperability extension for Wand (WeMod) app 项目地址: https://gitcode.com/gh_mirrors/we/Wand-Enhancer 还在为WeMod Pro的高级功能付费而烦…

2026/6/7 0:53:37 阅读更多

5分钟快速上手：B站成分检测器终极指南，让评论区用户身份一目了然

5分钟快速上手：B站成分检测器终极指南，让评论区用户身份一目了然【免费下载链接】bilibili-comment-checker B站评论区自动标注成分，支持动态和关注识别以及手动输入 UID 识别项目地址: https://gitcode.com/gh_mirrors/bil/bilibili-com…

2026/6/7 0:53:17 阅读更多

5分钟终极指南：用BetterNCM Installer一键解锁网易云音乐完整功能

5分钟终极指南：用BetterNCM Installer一键解锁网易云音乐完整功能【免费下载链接】BetterNCM-Installer 一键安装 Better 系软件项目地址: https://gitcode.com/gh_mirrors/be/BetterNCM-Installer 你是否厌倦了网易云音乐PC版功能单一、界面单调的体验&am…

2026/6/7 0:52:36 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/7 0:02:57 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/7 0:02:57 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/7 0:03:38 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

2026/6/7 0:02:57 阅读更多

索引堆及其优化

2026/6/7 0:02:57 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

2026/6/7 0:03:38 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/6 9:33:50 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/6 9:33:47 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/6 9:33:47 阅读更多

相关文章

Notepad2-mod：如何用这款轻量级编辑器替代Windows记事本提升300%效率

别再只配接口了！H3C防火墙三层聚合后ping不通的排查指南（附安全策略详解）

90+图片格式兼容性挑战？ImageGlass让你告别格式不支持的烦恼

如何用FModel轻松提取游戏资源：3个步骤开启MOD创作之旅

终极网盘直链下载助手：突破九大平台下载限制的完整指南

Kimi k2.6 LeetCode 3041. 修改数组后最大化数组中的连续元素数目 JavaScript实现

WeMod Pro完整解锁指南：三步免费激活高级功能的终极方案

5分钟快速上手：B站成分检测器终极指南，让评论区用户身份一目了然

5分钟终极指南：用BetterNCM Installer一键解锁网易云音乐完整功能

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因