最近在做 GPT-5.5 的可靠性评估把多次输出结果集中导出做了对比分析。ARC-AGI-2 从 73.3% 跳到 85.0% 这个数字在圈子里传得很广但 ARC-AGI-3 上 GPT-5.5 和 Claude Opus 4.7 双双不到 1%。通过 kulaai聚合平台集中调用多个模型做横向对比时把数据和体感整理了出来。结论是聪明和靠谱确实都在进步但远没到可以盲信的程度。流体智能ARC-AGI-2 的 85% 意味着什么ARC-AGI 测的不是记忆而是遇到没见过的模式能不能现学现用。ARC-AGI-2 在初代基础上做了三个关键改变引入符号解释和组合推理、剥离互联网数据污染、加强对抗暴力破解。测试基准GPT-5.5GPT-5.4提升幅度ARC-AGI-2流体智能85.0%73.3%11.7ppMRCR v2512K-1M 长上下文74.0%36.6%37.4ppGraphWalks BFS 1M45.4%9.4%36ppDeepSWE 总分70—行业第一DeepSWE Level 5顶级难度35%—所有模型最高推理 Thinking 模式准确率~92%~68%24ppGraphwalks BFS 1M 从 9.4% 跳到 45.4%这个数据最说明问题。它测的是在百万 token 上下文里持续追踪信息的能力——这才是流体智能在工程场景中的真正体现。GPT-5.5 是自 GPT-4.5 以来第一次完整重新预训练的模型。后训练能调整行为但突破不了原始预训练的能力上限新预训练移动的是重心本身。但 ARC-AGI-3 揭示了硬伤ARC-AGI-3 是目前最接近人类智能本质的测试——135 个全新环境没有任何玩法说明必须从稀疏反馈中推断规则。人类首次接触可以 100% 解决GPT-5.5 只得了 0.43%Claude Opus 4.7 只有 0.18%。研究团队总结了三大失败模式一是局部反馈无法上升为全局规则。模型能识别按这个键物体会旋转但无法推理出因此需要在行动前调整方向以匹配目标。它看得见变化但整合不成完整的世界模型。二是被训练数据绑架。模型反复将全新任务映射到已知游戏——俄罗斯方块、推箱子、打砖块。GPT-5.5 在任务中识别出了镜像效应但始终在俄罗斯方块青蛙过河汉诺塔之间反复横跳无法坚定执行正确逻辑。三是通关不等于理解。模型侥幸通过了某个关卡却无法利用成功的奖励信号强化正确操作。简单说Claude Opus 4.7 像过度自信的直觉主义者GPT-5.5 像思维发散的理论家。一个压缩错了一个压根压缩不了。推理稳定性聪明不等于靠谱流体智能高说明模型聪明但生产环境更关心同一个问题问十次结果稳不稳。GPT-5.5 的回复字数减少 30.2%不是缩水是废话少了。它更倾向于直接给结果不再输出冗长解释。每天用几十次的人体感差距巨大。OpenAI 官方使用指南强调了一个新技巧在提示词末尾加上完成后请检查是否有事实不确定、逻辑跳跃、遗漏反方观点。实测这类自检 prompt 确实有用——它会主动把确定事实、推断观点和待确认信息分开。但幻觉率虽然降了 52.5%在 DeepSWE 零样本模式下 GPT-5.5 只有 28 分——不给足够上下文表现会暴跌。盲目信任比幻觉本身更危险。定价翻倍但账没那么简单API 定价是 GPT-5.4 的两倍——输入 5、输出5、输出30 每百万 tokens。但完成相同任务所需 token 减少约 40%延迟持平。Batch API 定价是标准价的 50%与 GPT-5.4 标准价完全一样。高频 API 用户实际成本增幅可能只在 20% 左右。趋势从答对到想对再到想稳两个判断。第一流体智能的提升是结构性的但天花板肉眼可见。ARC-AGI-2 的 85% 是 RL scaling 带来的红利ARC-AGI-3 的 0.43% 说明模型在全新逻辑环境中的泛化能力仍有本质缺陷。前沿模型的竞争焦点正在从会不会推理转向能不能在未知环境中持续学习。第二推理稳定性才是生产环境的真正门槛。一个稳定的、可预测的模型在生产环境中的价值远超一个偶尔惊艳但经常波动的模型。GPT-5.5 在一致性上比前代有明显进步但在高风险场景下仍需人工校验。模型能力的提升速度已经快于安全防护机制的成熟速度了。拿自己的真实业务场景跑一遍一致性测试比看任何排行榜都管用。
GPT-5.5 流体智能与推理稳定性实测
发布时间:2026/6/9 1:42:05
最近在做 GPT-5.5 的可靠性评估把多次输出结果集中导出做了对比分析。ARC-AGI-2 从 73.3% 跳到 85.0% 这个数字在圈子里传得很广但 ARC-AGI-3 上 GPT-5.5 和 Claude Opus 4.7 双双不到 1%。通过 kulaai聚合平台集中调用多个模型做横向对比时把数据和体感整理了出来。结论是聪明和靠谱确实都在进步但远没到可以盲信的程度。流体智能ARC-AGI-2 的 85% 意味着什么ARC-AGI 测的不是记忆而是遇到没见过的模式能不能现学现用。ARC-AGI-2 在初代基础上做了三个关键改变引入符号解释和组合推理、剥离互联网数据污染、加强对抗暴力破解。测试基准GPT-5.5GPT-5.4提升幅度ARC-AGI-2流体智能85.0%73.3%11.7ppMRCR v2512K-1M 长上下文74.0%36.6%37.4ppGraphWalks BFS 1M45.4%9.4%36ppDeepSWE 总分70—行业第一DeepSWE Level 5顶级难度35%—所有模型最高推理 Thinking 模式准确率~92%~68%24ppGraphwalks BFS 1M 从 9.4% 跳到 45.4%这个数据最说明问题。它测的是在百万 token 上下文里持续追踪信息的能力——这才是流体智能在工程场景中的真正体现。GPT-5.5 是自 GPT-4.5 以来第一次完整重新预训练的模型。后训练能调整行为但突破不了原始预训练的能力上限新预训练移动的是重心本身。但 ARC-AGI-3 揭示了硬伤ARC-AGI-3 是目前最接近人类智能本质的测试——135 个全新环境没有任何玩法说明必须从稀疏反馈中推断规则。人类首次接触可以 100% 解决GPT-5.5 只得了 0.43%Claude Opus 4.7 只有 0.18%。研究团队总结了三大失败模式一是局部反馈无法上升为全局规则。模型能识别按这个键物体会旋转但无法推理出因此需要在行动前调整方向以匹配目标。它看得见变化但整合不成完整的世界模型。二是被训练数据绑架。模型反复将全新任务映射到已知游戏——俄罗斯方块、推箱子、打砖块。GPT-5.5 在任务中识别出了镜像效应但始终在俄罗斯方块青蛙过河汉诺塔之间反复横跳无法坚定执行正确逻辑。三是通关不等于理解。模型侥幸通过了某个关卡却无法利用成功的奖励信号强化正确操作。简单说Claude Opus 4.7 像过度自信的直觉主义者GPT-5.5 像思维发散的理论家。一个压缩错了一个压根压缩不了。推理稳定性聪明不等于靠谱流体智能高说明模型聪明但生产环境更关心同一个问题问十次结果稳不稳。GPT-5.5 的回复字数减少 30.2%不是缩水是废话少了。它更倾向于直接给结果不再输出冗长解释。每天用几十次的人体感差距巨大。OpenAI 官方使用指南强调了一个新技巧在提示词末尾加上完成后请检查是否有事实不确定、逻辑跳跃、遗漏反方观点。实测这类自检 prompt 确实有用——它会主动把确定事实、推断观点和待确认信息分开。但幻觉率虽然降了 52.5%在 DeepSWE 零样本模式下 GPT-5.5 只有 28 分——不给足够上下文表现会暴跌。盲目信任比幻觉本身更危险。定价翻倍但账没那么简单API 定价是 GPT-5.4 的两倍——输入 5、输出5、输出30 每百万 tokens。但完成相同任务所需 token 减少约 40%延迟持平。Batch API 定价是标准价的 50%与 GPT-5.4 标准价完全一样。高频 API 用户实际成本增幅可能只在 20% 左右。趋势从答对到想对再到想稳两个判断。第一流体智能的提升是结构性的但天花板肉眼可见。ARC-AGI-2 的 85% 是 RL scaling 带来的红利ARC-AGI-3 的 0.43% 说明模型在全新逻辑环境中的泛化能力仍有本质缺陷。前沿模型的竞争焦点正在从会不会推理转向能不能在未知环境中持续学习。第二推理稳定性才是生产环境的真正门槛。一个稳定的、可预测的模型在生产环境中的价值远超一个偶尔惊艳但经常波动的模型。GPT-5.5 在一致性上比前代有明显进步但在高风险场景下仍需人工校验。模型能力的提升速度已经快于安全防护机制的成熟速度了。拿自己的真实业务场景跑一遍一致性测试比看任何排行榜都管用。