【导语当前AI模型在主流benchmark上表现出色但在真实工作中却难以发挥作用。由加州大学伯克利分校牵头的研究团队提出新基准Agents’ Last ExamALE测试发现主流模型在ALE最难层级平均完整通过率仅2.6%揭示了AI在完成复杂专业任务上的差距。】新基准ALE衡量AI真实工作能力现有常用基准已无法衡量AI在真实、长流程、具经济价值工作中的表现研究团队提出新基准Agents’ Last ExamALE。它由250余位行业专家共同开发收集了1490个覆盖制造、法律、医疗、视觉媒体等多领域的任务用来测试AI在长期、有经济价值的真实工作流程中的表现。ALE考试主流模型表现不佳在ALE最难层级中主流模型平均完整通过率仅为2.6%。当前表现最好的配置Codex GPT - 5.5完整通过率也只有8.6%。研究团队列举了音乐转谱、注塑仿真、绿幕合成等失败案例指出当前系统的主要瓶颈在于领域知识而非执行能力。研究还比较了模型和agent框架的影响发现更换模型带来的结果差异明显大于更换agent框架模型选择带来的影响范围大约是agent框架的三倍。ALE不足与未来方向ALE以SOC 2018为职业分类骨架主要覆盖软件型、数字化专业工作现阶段任务主要运行在Linux或Windows虚拟机中且在不同领域覆盖不均衡。公开集目前只占完整任务池一部分公开子集和完整任务池在各领域通过率相关系数为0.89。不过研究团队认为ALE是持续更新的基准未来任务池会扩展到新工作流和新行业私有池任务也会定期轮换进入公开集。编辑观点新基准ALE为评估AI真实工作能力提供了新视角主流模型在ALE测试中的不佳表现凸显了其在复杂专业任务上的短板未来ALE的持续更新有望推动AI在更多领域的应用和发展。
新基准ALE测试:主流AI模型完成复杂专业任务平均通过率仅2.6%
发布时间:2026/6/11 14:32:39
【导语当前AI模型在主流benchmark上表现出色但在真实工作中却难以发挥作用。由加州大学伯克利分校牵头的研究团队提出新基准Agents’ Last ExamALE测试发现主流模型在ALE最难层级平均完整通过率仅2.6%揭示了AI在完成复杂专业任务上的差距。】新基准ALE衡量AI真实工作能力现有常用基准已无法衡量AI在真实、长流程、具经济价值工作中的表现研究团队提出新基准Agents’ Last ExamALE。它由250余位行业专家共同开发收集了1490个覆盖制造、法律、医疗、视觉媒体等多领域的任务用来测试AI在长期、有经济价值的真实工作流程中的表现。ALE考试主流模型表现不佳在ALE最难层级中主流模型平均完整通过率仅为2.6%。当前表现最好的配置Codex GPT - 5.5完整通过率也只有8.6%。研究团队列举了音乐转谱、注塑仿真、绿幕合成等失败案例指出当前系统的主要瓶颈在于领域知识而非执行能力。研究还比较了模型和agent框架的影响发现更换模型带来的结果差异明显大于更换agent框架模型选择带来的影响范围大约是agent框架的三倍。ALE不足与未来方向ALE以SOC 2018为职业分类骨架主要覆盖软件型、数字化专业工作现阶段任务主要运行在Linux或Windows虚拟机中且在不同领域覆盖不均衡。公开集目前只占完整任务池一部分公开子集和完整任务池在各领域通过率相关系数为0.89。不过研究团队认为ALE是持续更新的基准未来任务池会扩展到新工作流和新行业私有池任务也会定期轮换进入公开集。编辑观点新基准ALE为评估AI真实工作能力提供了新视角主流模型在ALE测试中的不佳表现凸显了其在复杂专业任务上的短板未来ALE的持续更新有望推动AI在更多领域的应用和发展。