这项由纽约州立大学奥尔巴尼分校、罗格斯大学、普渡大学、埃默里大学和佐治亚理工学院联合开展的研究于2026年5月27日以预印本形式发布在arXiv平台编号为arXiv:2605.29156v1分类为计算机学习领域cs.LG。研究团队提出了一套名为Rubric-ARROW的新型评分框架致力于解决人工智能语言模型在复杂开放任务中打分不准的老大难问题。**打分这件事比你以为的难多了**每当我们让AI助手写一篇文章、回答一个开放性问题随之而来的问题就是这个回答到底好不好分数应该是多少听起来这是个简单问题但现实中它难倒了大量AI工程师和研究人员。以招聘面试作类比一位经验丰富的HR评估一名应聘者她不会只凭一个第一印象分下判断而是会对照一张详细的考核表逐条检查候选人是否具备相关经验表达是否清晰解决问题的思路是否合理每条标准都有明确的说明。这张考核表在AI评估领域就叫做评分细则Rubric。用评分细则来评价AI回答是一种被证明比整体打分更可靠的方法。原因很直接整体打分依赖评估者的主观感受难以一致而评分细则将评价拆解成一条一条可检查的标准让每个判断都有据可查。然而真正落地这套方法时麻烦接踵而至。现有的评分细则方案通常需要借助GPT-4这类顶尖的外部考官来生成标准、打出判断。这就像每次批改作业都要聘请一位昂贵的名校教授不仅费用高昂还难以规模化部署。更糟糕的是这些方案普遍存在一个技术缺陷当评分细则里每一条标准只能给出满足或不满足两种结果时大量不同质量的回答最终会得到相同的总分区分不了彼此。这就好比用一把只有整数刻度的尺子去量精密零件误差大、信息少。Rubric-ARROW的出现正是为了同时解决这几个问题。**一、一套双人搭档的自我进化系统**Rubric-ARROW的核心设计思路可以用一对不断磨合的搭档来理解——一位是出题人评分细则生成器另一位是判卷员条件判断模型。出题人负责针对每道题目拟定评分标准判卷员则对照这些标准逐条审核AI的回答最终汇总出一个分数。这两位搭档并非一开始就很厉害。他们的成长过程分两个阶段。第一阶段叫入门培训有监督微调简称SFT研究团队从一个叫OpenRubrics的公开数据集中借用了一批高质量的评分细则再用GPT-5-mini生成了对应的判卷标注筛选出那些好的回答比差的回答得分更高的样本用这批数据对两位搭档进行初步训练让他们掌握基本套路。第二阶段是真正的关键——交替强化训练交替强化学习简称交替RL。在这个阶段研究团队不再依赖任何外部名校教授的标注而只使用人类标注过偏好的数据也就是对于同一个问题人们更喜欢哪个回答、不喜欢哪个回答。交替训练的逻辑是先固定出题人不动专门打磨判卷员让判卷员学会在固定标准下给出更符合人类偏好的分数差异然后固定判卷员不动专门打磨出题人让出题人学会生成更能帮助判卷员区分好坏回答的标准。两人轮流进步互相促进直到整个系统趋于稳定。这就像一对乒乓球搭档你陪我练进攻我陪你练防守最终两人都越来越强。**二、把是/否的判断变成一个连续的置信度**前面提到传统方案里评分细则的每一条只能给出满足1分或不满足0分的硬判断导致大量回答最终总分相同难以区分。Rubric-ARROW用了一个聪明的办法解决这个问题——不看判卷员最终说了什么而看它有多确信。具体来说判卷员在做出满足或不满足的判断之前内部有一个概率分布表示它认为这个回答满足这条标准的概率有多大。Rubric-ARROW用满足的概率减去不满足的概率得到一个介于-1到1之间的连续数值作为该条标准的得分。这样即便两个回答在所有标准上都被判为满足那个让判卷员更有把握的回答会得到更高的分数原本的平局就被打破了。类比一下两位学生都回答了地球绕太阳转但一位说得清晰准确另一位含糊其辞。老师给两人都打了正确但内心对第一位更有把握。Rubric-ARROW把这种内心的把握程度量化出来让分数更细腻。研究团队对这一设计做了专门的消融实验验证。他们对比了用模型真实置信度打分和用随机概率打分两种情况在InfoBench数据集上真实置信度方法成功把140个平局中的98个转化为正确判断同时保留了312个正确预测中的305个随机打分则只保留了312个中的160个。这一数字差异说明改善效果来自判卷员真实的判断质量而非运气。**三、用人类偏好作为唯一老师**强化训练阶段最值得细究的地方在于它如何只用人类更喜欢哪个回答这一信息来训练一个对单个回答独立打分的系统。这里有一个天然的矛盾人类的偏好数据是比较式的A比B好而Rubric-ARROW的目标是能够单独给每个回答打分。研究团队用了一套巧妙的转换方法。在训练判卷员时系统会对同一道题的两个回答各做多次评分得到一批分数。然后对于其中一个回答的每一次打分结果都与另一个回答所有打分的平均值进行比较——如果人类更偏好的那个回答每次的分数都高过另一侧的平均值就给予奖励。这种一对多均值的比较方式有一个很实际的好处多次打分的平均值更稳定不容易因为某次偶然的高分或低分而产生误导从而让训练信号更可靠。研究团队还用数学方式证明了这套机制的合理性。在四条定理中他们证明了只要人类偏好的回答平均得分确实更高这套训练机制就能正确地朝着偏好的回答得高分方向学习不会走偏偏好一致性定理。多次取平均的做法也被证明确实比单次比较更可靠、误判率更低方差减少定理。此外两条关于训练收敛的定理还保证了这套交替训练的流程不会原地打转而是会稳步接近一个较优的状态。在训练出题人时逻辑略有不同系统让出题人生成多套不同的评分细则对于每套细则用固定的判卷员给两个回答打分看哪套细则能让判卷员更准确地区分出人类偏好的那个回答。能做到这一点的细则获得奖励反之获得惩罚。还有一条额外的规则如果一套细则既能区分回答又是所有成功细则里最简洁的标准数量最少还会得到额外奖励——但前提是所有成功细则的平均长度不能太短平均至少5条以防出题人偷懒只出一两条标准糊弄了事。**四、实际效果在多项考试中表现如何**研究团队在大量标准评测集上测试了Rubric-ARROW涵盖了聊天质量、指令遵循、偏好对齐、创意写作等多个维度并与十余个有代表性的方法进行了横向比较。在评分准确性方面Rubric-ARROW在所有仅使用开源白盒模型的方法中综合排名第一平均得分从基线方法Rubric-RM的70.1分提升到了73.1分采用投票集成运行5次取多数后进一步达到75.6分。在指令遵循类的细分测评如Chat Hard、PPE-IFEval、InfoBench、IFBench上提升尤为明显。相比之下通过直接提示GPT-4或Gemini进行评分的方式尽管使用了更强大的外部模型Rubric-ARROW在多个指标上依然持平甚至超越。研究团队还测试了一个很实际的问题当AI拿着某个评分模型去挑选回答时随着候选数量增大从1个到128个评分模型是否还能保持可靠这个测试叫最优选择NBest-of-N。结果显示Rubric-RM和Skywork两个方法在候选数超过8个之后挑选质量开始下滑——这意味着它们的分数开始被钻空子选出的未必是真正好的回答。Rubric-ARROW则全程保持了与真实最佳回答的高度吻合说明它的分数具有更强的鲁棒性不容易被过度优化所欺骗。**五、用训练好的评分模型来改进AI政策**Rubric-ARROW不只是一个评分工具还可以直接用来提升AI语言模型本身的能力。研究团队将训练好的Rubric-ARROW用作奖励信号对Qwen2.5-7B-Instruct这一基础对话模型进行了进一步训练并在多个下游任务上评估效果。在离线训练场景中他们用Rubric-ARROW为每个问题评分并筛选出最好和最差的回答构建成训练对然后用DPO直接偏好优化方法让AI学习向好的回答靠近。结果在IFEval指令遵循测评中平均得分从77.3提升到80.7成为所有对比方法中最高的在ArenaHard综合聊天质量对战中采用迭代训练后达到57.5同样领先所有方法在创意写作基准测试中达到39.8单轮DPO和40.5迭代DPO也是最优结果在WildBench覆盖创意写作、规划、数学、信息检索、编程五个类别的综合测评中迭代训练后综合得分达到55.2超过了其他所有方法2.2个百分点以上。在在线训练场景中他们用Rubric-ARROW的实时打分作为强化学习信号直接引导AI生成更好的回答。结果综合平均得分从基础模型的56.1提升到65.4同样是所有对比方法中最高的明显优于RM-R1、RIFL和Skywork等强基线。**六、速度比同类方法快三到十倍**一个评分系统不仅要准还要快。研究团队在统一硬件环境下用100个样本测试了各方法的推理速度。Rubric-ARROW完成100次评分只需28.35秒而需要进行大量推理思考的RM-R1系列方法耗时170至382秒不等RRM-7B耗时203秒就连同类的Rubric-RM也需要105秒。唯一更快的是JudgeLRM-7B仅需25.71秒但它只给出一个直接判断没有任何条目化的评分依据可解释性远不如Rubric-ARROW。这意味着在实际部署中Rubric-ARROW能以远低于竞争对手的计算成本提供更准确、更可解释的评分结果。**七、一个具体的失败案例说明了什么**研究团队还通过一个具体例子直观展示了Rubric-ARROW与基线方法在质量上的差异。这道题是Birding观鸟运动和Bird watching看鸟有什么区别正确答案是前者更主动、更有系统性常伴有记录行为而后者更休闲。基线方法RIFL生成的评分细则包括回答是否简洁、是否组织清晰、是否保持中立语气、是否进行了直接比较等。对于那个错误答案声称两者区别在于一个用眼睛一个用耳朵RIFL的判卷员在直接进行比较等表面标准上判为满足最终错误回答在总分上赢了正确回答尽管判卷员自己也标注了该回答内容不准确。Rubric-ARROW生成的评分细则则更聚焦于核心质量回答是否准确说明了两者的实质区别如活动程度、目标、记录行为等。对于错误答案判卷员在这条关键标准上判为不满足正确回答则被标为满足最终给出了正确的偏好排序。这个案例说明评分细则的质量直接决定了最终判断的准确性——只有聚焦核心内容的标准才能抵御表面形式的干扰。**说到底这意味着什么**归根结底Rubric-ARROW做的事情是把一个原本依赖昂贵外部资源、容易打平分、速度慢的评分系统变成了一个可以自我进化、分辨力更强、速度更快的独立工具而且这个工具的训练只需要人类最自然产生的一种反馈——我更喜欢这个回答。这对AI领域的长远发展有一层实际意义当AI越来越多地被部署在教育、写作辅助、客服、决策支持等场景中如何衡量AI的输出质量本身就成了一个核心问题。如果评分系统既贵又慢还不准那整个AI改进的循环就会受限。Rubric-ARROW提供了一个方向让评分系统本身也成为一个可训练、可优化、可部署的组件而不是永远依赖外部的权威裁判。当然这项研究也存在一些值得继续探索的地方。训练的初始阶段仍然需要借助GPT-5-mini生成部分标注数据完全摆脱外部模型依赖还需要进一步工作。此外研究主要在通用对话任务上验证了效果在更专业的垂直领域如医学、法律、代码审查中的表现还需要额外验证。有兴趣深入了解技术细节的读者可以通过编号arXiv:2605.29156在arXiv平台查阅完整论文模型权重和训练数据集也已在HuggingFace平台的OpenRubrics账号下公开发布。QAQ1Rubric-ARROW和普通的AI打分方法有什么区别A普通AI打分方法通常直接给一个整体分数容易受主观影响且区分度低。Rubric-ARROW先生成一套评分细则再逐条打分汇总并且用模型的置信度而非硬性是否来计分让分数更细腻、更有区分度同时不依赖GPT-4等昂贵的外部模型。Q2Rubric-ARROW训练时需要什么数据A训练初期需要少量高质量评分细则和GPT-5-mini生成的标注数据做入门训练。之后的强化学习阶段只需要人类偏好数据也就是对于同一个问题人们更喜欢哪个回答的对比标注不需要再依赖外部大模型参与标注。Q3Rubric-ARROW的推理速度和其他方法相比怎么样A在相同硬件上评估100个样本Rubric-ARROW只需约28秒而同类推理型评分模型如RM-R1需要170到382秒另一个同类方法Rubric-RM需要约105秒。速度约是主要竞争对手的3到10倍同时保持了更高的评分准确性。
Albany大学等联合团队如何让语言模型的评分系统越用越准
发布时间:2026/6/3 22:45:21
这项由纽约州立大学奥尔巴尼分校、罗格斯大学、普渡大学、埃默里大学和佐治亚理工学院联合开展的研究于2026年5月27日以预印本形式发布在arXiv平台编号为arXiv:2605.29156v1分类为计算机学习领域cs.LG。研究团队提出了一套名为Rubric-ARROW的新型评分框架致力于解决人工智能语言模型在复杂开放任务中打分不准的老大难问题。**打分这件事比你以为的难多了**每当我们让AI助手写一篇文章、回答一个开放性问题随之而来的问题就是这个回答到底好不好分数应该是多少听起来这是个简单问题但现实中它难倒了大量AI工程师和研究人员。以招聘面试作类比一位经验丰富的HR评估一名应聘者她不会只凭一个第一印象分下判断而是会对照一张详细的考核表逐条检查候选人是否具备相关经验表达是否清晰解决问题的思路是否合理每条标准都有明确的说明。这张考核表在AI评估领域就叫做评分细则Rubric。用评分细则来评价AI回答是一种被证明比整体打分更可靠的方法。原因很直接整体打分依赖评估者的主观感受难以一致而评分细则将评价拆解成一条一条可检查的标准让每个判断都有据可查。然而真正落地这套方法时麻烦接踵而至。现有的评分细则方案通常需要借助GPT-4这类顶尖的外部考官来生成标准、打出判断。这就像每次批改作业都要聘请一位昂贵的名校教授不仅费用高昂还难以规模化部署。更糟糕的是这些方案普遍存在一个技术缺陷当评分细则里每一条标准只能给出满足或不满足两种结果时大量不同质量的回答最终会得到相同的总分区分不了彼此。这就好比用一把只有整数刻度的尺子去量精密零件误差大、信息少。Rubric-ARROW的出现正是为了同时解决这几个问题。**一、一套双人搭档的自我进化系统**Rubric-ARROW的核心设计思路可以用一对不断磨合的搭档来理解——一位是出题人评分细则生成器另一位是判卷员条件判断模型。出题人负责针对每道题目拟定评分标准判卷员则对照这些标准逐条审核AI的回答最终汇总出一个分数。这两位搭档并非一开始就很厉害。他们的成长过程分两个阶段。第一阶段叫入门培训有监督微调简称SFT研究团队从一个叫OpenRubrics的公开数据集中借用了一批高质量的评分细则再用GPT-5-mini生成了对应的判卷标注筛选出那些好的回答比差的回答得分更高的样本用这批数据对两位搭档进行初步训练让他们掌握基本套路。第二阶段是真正的关键——交替强化训练交替强化学习简称交替RL。在这个阶段研究团队不再依赖任何外部名校教授的标注而只使用人类标注过偏好的数据也就是对于同一个问题人们更喜欢哪个回答、不喜欢哪个回答。交替训练的逻辑是先固定出题人不动专门打磨判卷员让判卷员学会在固定标准下给出更符合人类偏好的分数差异然后固定判卷员不动专门打磨出题人让出题人学会生成更能帮助判卷员区分好坏回答的标准。两人轮流进步互相促进直到整个系统趋于稳定。这就像一对乒乓球搭档你陪我练进攻我陪你练防守最终两人都越来越强。**二、把是/否的判断变成一个连续的置信度**前面提到传统方案里评分细则的每一条只能给出满足1分或不满足0分的硬判断导致大量回答最终总分相同难以区分。Rubric-ARROW用了一个聪明的办法解决这个问题——不看判卷员最终说了什么而看它有多确信。具体来说判卷员在做出满足或不满足的判断之前内部有一个概率分布表示它认为这个回答满足这条标准的概率有多大。Rubric-ARROW用满足的概率减去不满足的概率得到一个介于-1到1之间的连续数值作为该条标准的得分。这样即便两个回答在所有标准上都被判为满足那个让判卷员更有把握的回答会得到更高的分数原本的平局就被打破了。类比一下两位学生都回答了地球绕太阳转但一位说得清晰准确另一位含糊其辞。老师给两人都打了正确但内心对第一位更有把握。Rubric-ARROW把这种内心的把握程度量化出来让分数更细腻。研究团队对这一设计做了专门的消融实验验证。他们对比了用模型真实置信度打分和用随机概率打分两种情况在InfoBench数据集上真实置信度方法成功把140个平局中的98个转化为正确判断同时保留了312个正确预测中的305个随机打分则只保留了312个中的160个。这一数字差异说明改善效果来自判卷员真实的判断质量而非运气。**三、用人类偏好作为唯一老师**强化训练阶段最值得细究的地方在于它如何只用人类更喜欢哪个回答这一信息来训练一个对单个回答独立打分的系统。这里有一个天然的矛盾人类的偏好数据是比较式的A比B好而Rubric-ARROW的目标是能够单独给每个回答打分。研究团队用了一套巧妙的转换方法。在训练判卷员时系统会对同一道题的两个回答各做多次评分得到一批分数。然后对于其中一个回答的每一次打分结果都与另一个回答所有打分的平均值进行比较——如果人类更偏好的那个回答每次的分数都高过另一侧的平均值就给予奖励。这种一对多均值的比较方式有一个很实际的好处多次打分的平均值更稳定不容易因为某次偶然的高分或低分而产生误导从而让训练信号更可靠。研究团队还用数学方式证明了这套机制的合理性。在四条定理中他们证明了只要人类偏好的回答平均得分确实更高这套训练机制就能正确地朝着偏好的回答得高分方向学习不会走偏偏好一致性定理。多次取平均的做法也被证明确实比单次比较更可靠、误判率更低方差减少定理。此外两条关于训练收敛的定理还保证了这套交替训练的流程不会原地打转而是会稳步接近一个较优的状态。在训练出题人时逻辑略有不同系统让出题人生成多套不同的评分细则对于每套细则用固定的判卷员给两个回答打分看哪套细则能让判卷员更准确地区分出人类偏好的那个回答。能做到这一点的细则获得奖励反之获得惩罚。还有一条额外的规则如果一套细则既能区分回答又是所有成功细则里最简洁的标准数量最少还会得到额外奖励——但前提是所有成功细则的平均长度不能太短平均至少5条以防出题人偷懒只出一两条标准糊弄了事。**四、实际效果在多项考试中表现如何**研究团队在大量标准评测集上测试了Rubric-ARROW涵盖了聊天质量、指令遵循、偏好对齐、创意写作等多个维度并与十余个有代表性的方法进行了横向比较。在评分准确性方面Rubric-ARROW在所有仅使用开源白盒模型的方法中综合排名第一平均得分从基线方法Rubric-RM的70.1分提升到了73.1分采用投票集成运行5次取多数后进一步达到75.6分。在指令遵循类的细分测评如Chat Hard、PPE-IFEval、InfoBench、IFBench上提升尤为明显。相比之下通过直接提示GPT-4或Gemini进行评分的方式尽管使用了更强大的外部模型Rubric-ARROW在多个指标上依然持平甚至超越。研究团队还测试了一个很实际的问题当AI拿着某个评分模型去挑选回答时随着候选数量增大从1个到128个评分模型是否还能保持可靠这个测试叫最优选择NBest-of-N。结果显示Rubric-RM和Skywork两个方法在候选数超过8个之后挑选质量开始下滑——这意味着它们的分数开始被钻空子选出的未必是真正好的回答。Rubric-ARROW则全程保持了与真实最佳回答的高度吻合说明它的分数具有更强的鲁棒性不容易被过度优化所欺骗。**五、用训练好的评分模型来改进AI政策**Rubric-ARROW不只是一个评分工具还可以直接用来提升AI语言模型本身的能力。研究团队将训练好的Rubric-ARROW用作奖励信号对Qwen2.5-7B-Instruct这一基础对话模型进行了进一步训练并在多个下游任务上评估效果。在离线训练场景中他们用Rubric-ARROW为每个问题评分并筛选出最好和最差的回答构建成训练对然后用DPO直接偏好优化方法让AI学习向好的回答靠近。结果在IFEval指令遵循测评中平均得分从77.3提升到80.7成为所有对比方法中最高的在ArenaHard综合聊天质量对战中采用迭代训练后达到57.5同样领先所有方法在创意写作基准测试中达到39.8单轮DPO和40.5迭代DPO也是最优结果在WildBench覆盖创意写作、规划、数学、信息检索、编程五个类别的综合测评中迭代训练后综合得分达到55.2超过了其他所有方法2.2个百分点以上。在在线训练场景中他们用Rubric-ARROW的实时打分作为强化学习信号直接引导AI生成更好的回答。结果综合平均得分从基础模型的56.1提升到65.4同样是所有对比方法中最高的明显优于RM-R1、RIFL和Skywork等强基线。**六、速度比同类方法快三到十倍**一个评分系统不仅要准还要快。研究团队在统一硬件环境下用100个样本测试了各方法的推理速度。Rubric-ARROW完成100次评分只需28.35秒而需要进行大量推理思考的RM-R1系列方法耗时170至382秒不等RRM-7B耗时203秒就连同类的Rubric-RM也需要105秒。唯一更快的是JudgeLRM-7B仅需25.71秒但它只给出一个直接判断没有任何条目化的评分依据可解释性远不如Rubric-ARROW。这意味着在实际部署中Rubric-ARROW能以远低于竞争对手的计算成本提供更准确、更可解释的评分结果。**七、一个具体的失败案例说明了什么**研究团队还通过一个具体例子直观展示了Rubric-ARROW与基线方法在质量上的差异。这道题是Birding观鸟运动和Bird watching看鸟有什么区别正确答案是前者更主动、更有系统性常伴有记录行为而后者更休闲。基线方法RIFL生成的评分细则包括回答是否简洁、是否组织清晰、是否保持中立语气、是否进行了直接比较等。对于那个错误答案声称两者区别在于一个用眼睛一个用耳朵RIFL的判卷员在直接进行比较等表面标准上判为满足最终错误回答在总分上赢了正确回答尽管判卷员自己也标注了该回答内容不准确。Rubric-ARROW生成的评分细则则更聚焦于核心质量回答是否准确说明了两者的实质区别如活动程度、目标、记录行为等。对于错误答案判卷员在这条关键标准上判为不满足正确回答则被标为满足最终给出了正确的偏好排序。这个案例说明评分细则的质量直接决定了最终判断的准确性——只有聚焦核心内容的标准才能抵御表面形式的干扰。**说到底这意味着什么**归根结底Rubric-ARROW做的事情是把一个原本依赖昂贵外部资源、容易打平分、速度慢的评分系统变成了一个可以自我进化、分辨力更强、速度更快的独立工具而且这个工具的训练只需要人类最自然产生的一种反馈——我更喜欢这个回答。这对AI领域的长远发展有一层实际意义当AI越来越多地被部署在教育、写作辅助、客服、决策支持等场景中如何衡量AI的输出质量本身就成了一个核心问题。如果评分系统既贵又慢还不准那整个AI改进的循环就会受限。Rubric-ARROW提供了一个方向让评分系统本身也成为一个可训练、可优化、可部署的组件而不是永远依赖外部的权威裁判。当然这项研究也存在一些值得继续探索的地方。训练的初始阶段仍然需要借助GPT-5-mini生成部分标注数据完全摆脱外部模型依赖还需要进一步工作。此外研究主要在通用对话任务上验证了效果在更专业的垂直领域如医学、法律、代码审查中的表现还需要额外验证。有兴趣深入了解技术细节的读者可以通过编号arXiv:2605.29156在arXiv平台查阅完整论文模型权重和训练数据集也已在HuggingFace平台的OpenRubrics账号下公开发布。QAQ1Rubric-ARROW和普通的AI打分方法有什么区别A普通AI打分方法通常直接给一个整体分数容易受主观影响且区分度低。Rubric-ARROW先生成一套评分细则再逐条打分汇总并且用模型的置信度而非硬性是否来计分让分数更细腻、更有区分度同时不依赖GPT-4等昂贵的外部模型。Q2Rubric-ARROW训练时需要什么数据A训练初期需要少量高质量评分细则和GPT-5-mini生成的标注数据做入门训练。之后的强化学习阶段只需要人类偏好数据也就是对于同一个问题人们更喜欢哪个回答的对比标注不需要再依赖外部大模型参与标注。Q3Rubric-ARROW的推理速度和其他方法相比怎么样A在相同硬件上评估100个样本Rubric-ARROW只需约28秒而同类推理型评分模型如RM-R1需要170到382秒另一个同类方法Rubric-RM需要约105秒。速度约是主要竞争对手的3到10倍同时保持了更高的评分准确性。