总目录 大模型安全研究论文整理 2026年版https://blog.csdn.net/WhiffeYF/article/details/159047894总目录 大模型相关研究 2025版https://blog.csdn.net/WhiffeYF/article/details/142132328LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipelinehttps://arxiv.org/abs/2606.17507arxiv 2026 | LLM课程评卷管线 论文LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipeline该论文由 Xiwei Xu、Chen Wang、Jacky Jiang、Phil Yang、Qian Fu、Mohan Dhall、Wenjie Zhang、Liming Zhu 等作者完成机构包括 CSIRO、UNSW、Studitory 与 Australian Tutoring Association。 背景痛点LLM 正在进入自动评分和学习反馈场景但教育评估不能只靠“模型觉得像不像”。尤其在高风险考试准备中评分必须对齐官方课程大纲、能力要求、关键词解释和评分指南。否则模型可能给出看似合理的分数却无法说明依据来自哪里。️ 方法核心该论文提出一种课程锚定的 LLM-as-Judge 评卷管线。它先识别题目对应的主题、子主题和认知要求再调用官方课程材料生成题目专属评分标准最后用这些标准评价学生答案并生成反馈。重点不是让 LLM 自由发挥而是让它在“官方评分轨道”里完成判断。 例子普通 LLM 评分像一位经验丰富但没带评分手册的老师可能分数差不多但依据不够透明。该论文的方法则像给老师配好课程地图、评分细则和检查表。每次批改前系统先确认题目考什么、要求学生展示什么能力、该按哪些规则给分然后再输出分数和理由。 实验发现第一该论文的初步评估显示该管线的评分结果可以达到接近人类辅导老师的水平。第二直接提示 GPT-5 也能较好模仿人类分数但这不代表它真正对齐了特定地区和考试制度下的官方课程要求。第三在评分理由质量比较中该管线相较人类反馈和单次 LLM 直接评分取得更高胜率且理由更贴近课程大纲、关键词表和评分标准。 总结该论文的价值在于把 LLM 自动评分从“凭模型感觉打分”推进到“按课程证据打分”为教育评估中的可信 AI 提供了更可审计的工程路径。
论文阅读:arxiv 2026 LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipeline
发布时间:2026/7/2 3:34:46
总目录 大模型安全研究论文整理 2026年版https://blog.csdn.net/WhiffeYF/article/details/159047894总目录 大模型相关研究 2025版https://blog.csdn.net/WhiffeYF/article/details/142132328LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipelinehttps://arxiv.org/abs/2606.17507arxiv 2026 | LLM课程评卷管线 论文LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipeline该论文由 Xiwei Xu、Chen Wang、Jacky Jiang、Phil Yang、Qian Fu、Mohan Dhall、Wenjie Zhang、Liming Zhu 等作者完成机构包括 CSIRO、UNSW、Studitory 与 Australian Tutoring Association。 背景痛点LLM 正在进入自动评分和学习反馈场景但教育评估不能只靠“模型觉得像不像”。尤其在高风险考试准备中评分必须对齐官方课程大纲、能力要求、关键词解释和评分指南。否则模型可能给出看似合理的分数却无法说明依据来自哪里。️ 方法核心该论文提出一种课程锚定的 LLM-as-Judge 评卷管线。它先识别题目对应的主题、子主题和认知要求再调用官方课程材料生成题目专属评分标准最后用这些标准评价学生答案并生成反馈。重点不是让 LLM 自由发挥而是让它在“官方评分轨道”里完成判断。 例子普通 LLM 评分像一位经验丰富但没带评分手册的老师可能分数差不多但依据不够透明。该论文的方法则像给老师配好课程地图、评分细则和检查表。每次批改前系统先确认题目考什么、要求学生展示什么能力、该按哪些规则给分然后再输出分数和理由。 实验发现第一该论文的初步评估显示该管线的评分结果可以达到接近人类辅导老师的水平。第二直接提示 GPT-5 也能较好模仿人类分数但这不代表它真正对齐了特定地区和考试制度下的官方课程要求。第三在评分理由质量比较中该管线相较人类反馈和单次 LLM 直接评分取得更高胜率且理由更贴近课程大纲、关键词表和评分标准。 总结该论文的价值在于把 LLM 自动评分从“凭模型感觉打分”推进到“按课程证据打分”为教育评估中的可信 AI 提供了更可审计的工程路径。