GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning GrandCode 论文核心总结 + 关键章节中英对照一、核心内容总结1. 研究背景竞技编程长期是AI代码能力的人类最后堡垒,此前最强AI(如Gemini 3 Deep Think)仅能在非实时场景获第8名,无法在真实竞赛中超越人类顶尖选手。2. 核心成果提出GrandCode:面向竞技编程的多智能体强化学习系统首次在Codeforces实时竞赛中连续3场(Round 1087/1088/1089)全胜夺冠,击败所有人类选手(含传奇特级大师)验证AI已在最高难度实时编码任务上超越人类最强程序员3. 系统架构四大核心模块协同:主求解器:生成推理轨迹与代码假设模型:提出结构猜想并小样本验证摘要模型:压缩超长推理上下文测试用例生成:构造对抗/边界/压力测试训练流程:持续预训练 → 监督微调 → 多组