花费1500美元测试:主流LLM对Firebase配置错误漏洞检测能力差异显著 Firebase配置错误漏洞下的LLM测试实验安全研究员Kasra花费约1500美元精心设计了一个实验系统性地测试多款主流大语言模型LLM的黑客攻击能力。他构建了存在Firebase配置错误漏洞的书评应用BookNook以此测试模型在实际场景中发现真实配置错误的能力而非在人造题目上的表现。各LLM在实验中的表现差异在测试的15款以上LLM中表现差异显著。GPT - 5.5以70%的成功率位居榜首平均每道题花费9.46美元。Deepseek V4 Pro每道题仅需0.62美元但成功率只有30%性价比看似不错但失败率也不低。Claude Sonnet 4.6和Claude Opus 4.8的成功率相当均为20%。LLM安全评估的根本性盲点多数模型花费大量时间试图在API层面寻找漏洞却没意识到可直接访问底层的Firebase配置。这说明当前LLM的安全评估存在根本性盲点即模型擅长在代码逻辑中寻找漏洞却可能对表层配置错误“视而不见”一个配置错误比代码漏洞更显眼却更难被注意。实验对安全团队的启示此实验揭示了LLM在自动化漏洞发现方面的局限性至少在配置类漏洞上当前模型表现不如宣传的强大。同时提醒我们真正有效的安全测试不能完全依赖AI定期的人工代码审计和配置检查仍然不可或缺。整个实验在15款模型上各运行约10轮成本约1500美元。编辑观点LLM虽在安全领域有应用潜力但此次实验暴露其不足安全团队不能过度依赖应结合人工审计保障安全。