蚂蚁开源AReaL1.5B推理模型数学能力达88%【免费下载链接】AReaL-1.5B-Preview-Stage-1项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/AReaL-1.5B-Preview-Stage-1导语蚂蚁集团研究团队近日开源了AReaL-1.5B-Preview-Stage-1推理模型其在MATH500基准测试中实现88%的Pass1准确率展现了轻量级模型在复杂数学推理领域的突破性进展。行业现状随着大语言模型技术的快速迭代推理能力已成为衡量模型智能水平的核心指标。当前主流大模型普遍依赖百亿甚至千亿参数规模实现高性能推理但这也带来了部署成本高、响应速度慢等问题。据行业报告显示2024年轻量化推理模型市场需求同比增长127%如何在有限参数条件下实现高效推理成为行业研究热点。模型亮点AReaLAnt Reasoning RL作为蚂蚁集团RL实验室开发的开源强化学习系统基于DeepSeek-R1-Distill-Qwen-1.5B底座模型优化而来通过三阶段强化学习训练实现性能跃升。该模型采用创新的动态上下文扩展技术从8K逐步扩展至24K上下文长度在16节点8卡H800集群上完成训练。最引人注目的是其在数学推理任务上的表现在MATH500基准测试中达到88.0%的Pass1准确率超越DeepScaleR官方模型的87.8%在AMC 2023竞赛题上实现81.2%的准确率同时AIME 2024得分达到40.2分接近GPT-4 o1-Preview的水平。这张训练曲线图清晰展示了AReaL模型在三个训练阶段的性能演变8K阶段奖励值持续上升但响应长度缩短16K和24K阶段响应长度逐步回升。这种先压缩再扩展的训练模式反映了模型在学习推理逻辑与保持表达完整性之间的动态平衡过程为理解轻量化模型的优化路径提供了重要参考。AReaL项目承诺完全开源所有代码、数据集和训练方案支持从单节点到数百GPU的弹性扩展这一开放策略将极大降低推理模型研究的技术门槛。行业影响1.5B参数规模实现88%数学推理准确率这一突破具有双重意义一方面证明了通过优化训练方法而非单纯增加参数量可以有效提升模型推理能力为轻量化模型在边缘设备和低资源环境的部署开辟了新路径另一方面蚂蚁集团将完整训练流程开源可能推动行业形成小而精的模型开发新范式。金融、教育、科研等依赖复杂计算的领域将直接受益。例如在金融风控场景中该模型可快速处理复杂的概率计算和风险评估教育领域则可实现个性化数学辅导实时解决学生的解题疑问。结论/前瞻AReaL-1.5B的发布标志着轻量化推理模型正式进入实用阶段。随着社区贡献的持续增加我们有理由期待这一开源项目在多语言推理、逻辑推理等更多领域的突破。未来参数效率Parameter Efficiency与推理性能的平衡将成为大模型发展的关键方向而开放协作则是推动这一进程的核心动力。【免费下载链接】AReaL-1.5B-Preview-Stage-1项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/AReaL-1.5B-Preview-Stage-1创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
蚂蚁开源AReaL:1.5B推理模型数学能力达88%
发布时间:2026/6/17 5:33:15
蚂蚁开源AReaL1.5B推理模型数学能力达88%【免费下载链接】AReaL-1.5B-Preview-Stage-1项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/AReaL-1.5B-Preview-Stage-1导语蚂蚁集团研究团队近日开源了AReaL-1.5B-Preview-Stage-1推理模型其在MATH500基准测试中实现88%的Pass1准确率展现了轻量级模型在复杂数学推理领域的突破性进展。行业现状随着大语言模型技术的快速迭代推理能力已成为衡量模型智能水平的核心指标。当前主流大模型普遍依赖百亿甚至千亿参数规模实现高性能推理但这也带来了部署成本高、响应速度慢等问题。据行业报告显示2024年轻量化推理模型市场需求同比增长127%如何在有限参数条件下实现高效推理成为行业研究热点。模型亮点AReaLAnt Reasoning RL作为蚂蚁集团RL实验室开发的开源强化学习系统基于DeepSeek-R1-Distill-Qwen-1.5B底座模型优化而来通过三阶段强化学习训练实现性能跃升。该模型采用创新的动态上下文扩展技术从8K逐步扩展至24K上下文长度在16节点8卡H800集群上完成训练。最引人注目的是其在数学推理任务上的表现在MATH500基准测试中达到88.0%的Pass1准确率超越DeepScaleR官方模型的87.8%在AMC 2023竞赛题上实现81.2%的准确率同时AIME 2024得分达到40.2分接近GPT-4 o1-Preview的水平。这张训练曲线图清晰展示了AReaL模型在三个训练阶段的性能演变8K阶段奖励值持续上升但响应长度缩短16K和24K阶段响应长度逐步回升。这种先压缩再扩展的训练模式反映了模型在学习推理逻辑与保持表达完整性之间的动态平衡过程为理解轻量化模型的优化路径提供了重要参考。AReaL项目承诺完全开源所有代码、数据集和训练方案支持从单节点到数百GPU的弹性扩展这一开放策略将极大降低推理模型研究的技术门槛。行业影响1.5B参数规模实现88%数学推理准确率这一突破具有双重意义一方面证明了通过优化训练方法而非单纯增加参数量可以有效提升模型推理能力为轻量化模型在边缘设备和低资源环境的部署开辟了新路径另一方面蚂蚁集团将完整训练流程开源可能推动行业形成小而精的模型开发新范式。金融、教育、科研等依赖复杂计算的领域将直接受益。例如在金融风控场景中该模型可快速处理复杂的概率计算和风险评估教育领域则可实现个性化数学辅导实时解决学生的解题疑问。结论/前瞻AReaL-1.5B的发布标志着轻量化推理模型正式进入实用阶段。随着社区贡献的持续增加我们有理由期待这一开源项目在多语言推理、逻辑推理等更多领域的突破。未来参数效率Parameter Efficiency与推理性能的平衡将成为大模型发展的关键方向而开放协作则是推动这一进程的核心动力。【免费下载链接】AReaL-1.5B-Preview-Stage-1项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/AReaL-1.5B-Preview-Stage-1创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考