新基准ALE测试：主流AI模型完成复杂专业任务平均通过率仅2.6%

发布时间：2026/6/11 14:32:39

【导语当前AI模型在主流benchmark上表现出色但在真实工作中却难以发挥作用。由加州大学伯克利分校牵头的研究团队提出新基准Agents’ Last ExamALE测试发现主流模型在ALE最难层级平均完整通过率仅2.6%揭示了AI在完成复杂专业任务上的差距。】新基准ALE衡量AI真实工作能力现有常用基准已无法衡量AI在真实、长流程、具经济价值工作中的表现研究团队提出新基准Agents’ Last ExamALE。它由250余位行业专家共同开发收集了1490个覆盖制造、法律、医疗、视觉媒体等多领域的任务用来测试AI在长期、有经济价值的真实工作流程中的表现。ALE考试主流模型表现不佳在ALE最难层级中主流模型平均完整通过率仅为2.6%。当前表现最好的配置Codex GPT - 5.5完整通过率也只有8.6%。研究团队列举了音乐转谱、注塑仿真、绿幕合成等失败案例指出当前系统的主要瓶颈在于领域知识而非执行能力。研究还比较了模型和agent框架的影响发现更换模型带来的结果差异明显大于更换agent框架模型选择带来的影响范围大约是agent框架的三倍。ALE不足与未来方向ALE以SOC 2018为职业分类骨架主要覆盖软件型、数字化专业工作现阶段任务主要运行在Linux或Windows虚拟机中且在不同领域覆盖不均衡。公开集目前只占完整任务池一部分公开子集和完整任务池在各领域通过率相关系数为0.89。不过研究团队认为ALE是持续更新的基准未来任务池会扩展到新工作流和新行业私有池任务也会定期轮换进入公开集。编辑观点新基准ALE为评估AI真实工作能力提供了新视角主流模型在ALE测试中的不佳表现凸显了其在复杂专业任务上的短板未来ALE的持续更新有望推动AI在更多领域的应用和发展。

H5前端视频压缩实战：绕过性能瓶颈的MediaRecorder与ffmpeg.js混合方案

1. 为什么前端视频压缩这么难？ 做H5开发的朋友应该都遇到过这样的场景：用户上传的视频体积太大，服务器处理压力大，上传耗时久。传统做法是把视频传到服务器再用ffmpeg压缩，但这会带来两个问题：一是服务器计…

2026/6/11 14:31:17 阅读更多

SDXL VAE FP16精度优化：34%显存释放与零NaN生成的技术实现

SDXL VAE FP16精度优化：34%显存释放与零NaN生成的技术实现【免费下载链接】sdxl-vae-fp16-fix 项目地址: https://ai.gitcode.com/hf_mirrors/madebyollin/sdxl-vae-fp16-fix SDXL VAE在FP16半精度运算中产生数值溢出和黑色噪点图像的问题，一直…

2026/6/11 14:31:17 阅读更多

U9 6.0本地免安装数据字典包：Chrome双击即开，32个模块表结构全涵盖

本文还有配套的精品资源，点击获取简介：U9 6.0系统配套的离线数据字典集合，解压后直接用Chrome打开index.html就能使用，不需要联网、不依赖IIS或数据库服务，也不用装任何额外软件。整个包包含32个静态HTML页面&…

2026/6/11 14:30:57 阅读更多

MPC755原型芯片硬件设计：电源、时钟与热管理实战解析

1. 项目概述：一份尘封的“飞行手册” 在嵌入式系统开发，尤其是工业控制、通信设备这类长生命周期产品的维护与升级中，我们常常会与一些“老兵”芯片打交道。MPC755，这颗源自摩托罗拉（后飞思卡尔）的PowerPC …

2026/6/11 16:06:17 阅读更多

163MusicLyrics：终极免费歌词下载工具，一站式解决音乐歌词获取难题

163MusicLyrics：终极免费歌词下载工具，一站式解决音乐歌词获取难题【免费下载链接】163MusicLyrics 云音乐歌词获取处理工具【网易云、QQ音乐】项目地址: https://gitcode.com/GitHub_Trending/16/163MusicLyrics 还在为找不到音乐歌词而烦恼吗…

2026/6/11 16:05:57 阅读更多

终极Project Sekai表情包制作指南：3分钟创建个性化Discord贴纸

终极Project Sekai表情包制作指南：3分钟创建个性化Discord贴纸【免费下载链接】sekai-stickers Project Sekai sticker maker 项目地址: https://gitcode.com/gh_mirrors/se/sekai-stickers 你是否厌倦了千篇一律的表情包？想要在Discord聊天中展…

2026/6/11 16:05:36 阅读更多

PCA9661并行总线转I2C控制器：硬件设计、焊接工艺与调试全解析

1. 项目概述：从并行总线到I2C的桥梁搭建在嵌入式系统开发中，我们常常会遇到一个经典矛盾：主控芯片（比如一个老旧的DSP或者某些ASIC）只提供了传统的并行总线接口，而我们需要连接的外设，比如传感器…

2026/6/11 16:04:54 阅读更多

MATLAB里跑航天器和化工过程轨迹优化的现成工具包：gpops5.2开箱就能调参求解

本文还有配套的精品资源，点击获取简介：gpops5.2是一个面向工程实际的MATLAB轨迹优化工具箱，专为非线性最优控制问题设计，支持直接配点法建模与求解。它能处理霍曼转移、月球软着陆、动态滑翔、生物反应器调控、化学过程优化等…

2026/6/11 16:02:52 阅读更多

D3keyHelper：解放双手的暗黑3智能按键助手

D3keyHelper：解放双手的暗黑3智能按键助手【免费下载链接】D3keyHelper D3KeyHelper是一个有图形界面，可自定义配置的暗黑3鼠标宏工具。项目地址: https://gitcode.com/gh_mirrors/d3/D3keyHelper 还在为暗黑破坏神3中重复的技能按键感到手指酸…

2026/6/11 16:02:10 阅读更多

LLM 多轮对话状态管理：从无状态 API 到有状态会话

LLM 多轮对话状态管理：从无状态 API 到有状态会话一、大模型 API 的无状态困境：上下文窗口的有限性与会话连续性大模型的 Chat API 本质上是无状态的——每次请求都需要发送完整的对话历史。这种设计简化了服务端实现，但给后端架构带来了两个…

2026/6/11 1:00:57 阅读更多

Spring Boot 3 与 GraalVM 原生镜像：从 JIT 到 AOT 的启动革命

Spring Boot 3 与 GraalVM 原生镜像：从 JIT 到 AOT 的启动革命一、JVM 冷启动的性能困境：云原生环境下的启动延迟 Java 应用在云原生环境中面临的核心挑战是冷启动延迟。一个典型的 Spring Boot 2 应用，启动时间约 3-8 秒，内存占…

2026/6/11 1:01:58 阅读更多

Go 错误处理与错误链：从哨兵错误到自定义错误类型的工程实践

Go 错误处理与错误链：从哨兵错误到自定义错误类型的工程实践一、Go 错误处理的工程困境：哨兵值与信息丢失 Go 的错误处理采用显式返回值模式，if err ! nil 是每个 Go 开发者最熟悉的代码片段。然而，当项目规模增长后，简…

2026/6/11 1:01:58 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/11 0:58:15 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/11 0:58:13 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/11 0:58:10 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/11 9:57:14 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/11 9:57:16 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…