AI助手被媒体吹得无所不能。大家开始憧憬让这些Agent走进办公室登录各种SaaS软件即服务系统帮我们处理报销、管理库存或者分析财务报表。然而最强的AI智能体在面对真实的职业工作流时任务完成率竟然不到4%。最近UniPat AI、北京大学等机构发布了SaaS-Bench基准。这项研究把市面上最顶尖的AI模型都拉到了真实的办公软件环境里。研究人员给它们准备了23个真实的SaaS系统涵盖了财务、医疗、管理等6个职业领域。结果发现要让AI真正干活还差得远呢。UniPatAI是一家专注于让AI不仅能“说”更能“做”的初创公司。公司目标是让AI具有可验证、可执行、与结果挂钩的真实操作从科研和预测这两个高壁垒领域入手加速AI向现实世界自动化演进。其核心成员来自通义千问、Kimi、小米和字节Seed等团队在构建推理模型和复杂决策系统方面经验丰富。下面我们就通过这份研究看看目前的AI智能体在真实职场中到底遇到了哪些迈不过去的坎。真实工作不是点网页过去几年科技圈对能操作电脑的Agent抱有极大期望。机器不仅能回答问题还能主动出击代替人类打开浏览器敲击键盘点击按钮。从被动理解语言走向主动执行复杂动作业界将Agent视为通向未来的必由之路。人们总是容易高估点点鼠标和真正做完一项工作的区别。在真实的职场环境里工作很少在同一个页面里点几下就能结束。一项平凡无奇的财务报销通常始于CRM客户关系管理系统里的审批中间需要穿梭到人力资源后台核对出差数据最后在复杂的财务软件里完成入账还要顺手发一封通知邮件。面对环环相扣的过程难点根本不在于人工智能能否找到发亮的确认按钮。真正的考验在于Agent必须在横跨多个软件的长途跋涉中保持清晰的意图记住上一步拿到的数据应对随时弹出的报错提示还要确保最终产出的结果能通过严格的审计。以往的测试题太简单了。开发者在做系统测验时经常拿高度简化的孤立网页或者仅仅包含三五个步骤的模拟小任务来充数。Agent在温室环境里轻轻松松拿到高分让人误以为马上就能走进格子间顶替高级白领。真把机器拉进企业真刀真枪在用的系统里滤镜瞬间碎了一地。为了搞清楚人工智能到底具备多少真正的职场战斗力研究团队精心打造了SaaS-Bench。一个专为审视Agent真实工作能力量身定做的测试基准包含了23个真实可部署的SaaS软件即服务系统。软件横跨6大硬核专业领域软件工程与项目管理、商业运营与财务、医疗行政、团队协作与文档工作流、农业供应链、独立媒体创作。为了还原最真实的职场折磨测试库内置了106个逼真的工作任务。有74个纯文本任务还有32个需要看图看文档的多模态任务。高达93%的任务要求跨越至少两个以上的应用程序一半以上的任务更是要在三个不同的软件间反复横跳。最折磨人的是任务的平均操作步骤远超100步。新测试库在环境真实度、跨应用协同和长链路执行三大核心维度上把以往的玩具级测试彻底颠覆。自带真实的数据库、真实的用户权限密码和极度死板的商业运行逻辑。上面圆环图展示了任务的复杂构成。最外圈密密麻麻的应用图标代表了每一个打工人日常必须面对的枯燥软件。从开源的医疗记录系统OpenEMR开源电子病历系统到复杂的财务工具BigCapital开源财务软件再到文档处理神器OnlyOffice办公套件每一个领域的应用都被深度卷入。条形分布图更直观展示了任务漫长得令人发指。绝大多数文本任务都在100步之上部分任务的执行轨迹甚至逼近了400步的极限彻底告别点三下就交差的过家家模式。看起来很美但没完成为了公平公正测试人员把Agent扔进装满各种应用系统的虚拟容器里。软件统统被Docker固化并且锁定了版本和初始配置。每次开始新任务前所有的数据库和缓存都会被冷酷重置到最初始的干净状态保证所有的模型都在同一条起跑线上。Agent只能像最普通的实习生那样盯着屏幕渲染出来的DOM树结构和截图用鼠标键盘一步步点敲。任何走后门调取后台接口或者偷偷查看数据库的作弊行为全被封杀。面对冗长的任务研究团队定下了两种极为苛刻的评分标准。第一种叫检查点得分任务被拆解成十几个需要验证的核心环节每作对一个环节拿一部分权重分。类似算法心肠还算柔软能看出Agent在彻底趴下之前到底往前挪了多远。第二种叫解决得分本质是极其残酷的一票否决制。要求一项工作里所有的检查点必须全对只要中间错了一个微不足道的数据哪怕进度条已经冲到了99%也直接计为0分。职场从来不相信苦劳只看最后的交付结果。沉甸甸的成绩单揭开了一场华丽的溃败。即使是当前公认最顶尖的模型Claude Opus 4.7凭借着高超的文本理解能力拿到了近44%的平均检查点得分最终能彻底搞定、完全解决任务的比例仅仅停留在让人心寒的3.8%。大部分明星模型都能热火朝天开工点击新建表单敲入几行文字做着做着就彻底迷失了方向。面对相对简单的团队协作领域起草文档并发送几封带抄送的邮件勉强能拿点分。碰到商业运营或医疗行政边界里到处是数字约束、具有严格数据底层的硬核流程直接跪倒在地。成绩崩盘根本不是差了临门一脚的问题而是数学规律在无情展现威力。长链路任务像是一把极为苛刻的漏斗把一众伪装的高手全筛了下去。假设一项工作被拆成了12个连续的步骤每个单一步骤做对的概率高达95%看起来极其完美。把12个0.95乘在一起最终能完整交付全对结果的概率连55%都不到。图中三条触目惊心的下滑曲线完美记录了失败轨迹。任务牵扯的应用软件越多要求的操作步骤越长背后埋伏的检查点越细致Agent的得分就以肉眼可见的速度摔向谷底。掩盖得分下的致命伤拿不到高分的表象之下深藏着人工智能理解真实世界的结构性盲区。顺着数百步的操作记录深挖研究人员发现Agent在应对复杂商业软件时暴露出四种让人啼笑皆非的致命毛病。第一种毛病叫多米诺骨牌式的连环崩溃。真实世界里上游系统建错的一个名字会让下游所有的账单变成烂账。在一个编号为bof_032的测试里系统要求在财务软件里建立一个名叫Arcturus Digital的企业客户并在此名下挂靠两笔阶段性发票和付款记录。某顶级大模型一顿操作猛如虎在新建客户的表单里填了公司名又顺手在个人姓名栏填了对接人的名字。系统判定填了人名自动把属性变成了个人客户。Agent完全不知情看着屏幕上显示的姓名括号公司名标签心满意足继续开票做账历经398步兴奋提交了任务。审查程序在数据库里搜索企业客户Arcturus Digital查无此人后面的所有账务彻底成了无源之水。有七个模型全倒在隐秘的坑里读不懂业务概念在底层数据库里究竟代表着什么实体。第二种毛病叫盲目自信到了自欺欺人的地步。研究人员扒开了脑电波查看内部评估日志发现了令人捧腹的真相。处理报销单时Agent走到第124步敏锐察觉自己把账单日期填成了19号而要求是20号。在内部日志里老老实实写下要修改日期的计划。41步过去后动手点了几下按钮连页面都没刷新直接在日志里给自己打了满分。任务结束的最终报告里信誓旦旦声明日期已经完美设定为20日。后台数据证明日期根本没改动。人类打工人在修正错误后一定会盯着屏幕确认数字对不对机器压根没有事后闭环验证的本能全凭着自己的规划强行宣告胜利。第三种毛病是前后巨大的波动性。就像个状态飘忽不定的新员工布置一模一样的作业每次交回来的结果判若两人。让同一个模型操作人力资源的申诉处理流程第一次彻底交了白卷。第二次跑到一半卡死在软件里。第三次宛如神明附体一路过关斩将拿到了近68%的分数。并不是环境在变化每次启动前系统都被清零复原。背后的真相是长途跋涉充满了分岔路口。一次微小的选项犹豫或者在某个不熟悉的按钮上多点了五十次耗光了所有操作配额导致整个任务走向完全不同的结局。研究人员特意放宽了要求做了允许多次尝试的测试。柱状图清晰可见给三次机会确实能挽救一些分数进一步证明运气因素在整个过程中扮演了不可忽略的角色。微末的提升距离让打工人安心交接工作还有好几十条街的距离。软件该为AI重做当前的Agent设计思路走入了一个看似热闹却收效甚微的怪圈。开发工程师满脑子装的都是如何教机器认全网页上的像素点如何找准下拉框反而忽略了职场工作的核心灵魂在于业务逻辑的闭环流转。为了打造出真实的试金石团队搬出了由构建者、挑战者、提炼者组成的评审法庭。大模型负责批量生成测试提案人类专家充当最挑剔的考官把完全不切实际、把CRM系统当垃圾桶乱塞数据的奇葩任务通通毙掉。经过静态检查和人工试运行的双重残酷清洗仅仅只有45%的候选任务存活下来。严格淘汰机制保驾护航之下每一道题都是职场里每天都在发生的真实苦难。Agent想要成为合格的数字员工必须经历脱胎换骨的进化。点完确认键脑子里必须明白不仅仅是页面刷新了一下而是远端服务器里的数据库多出了一条不可磨灭的记录。学会把横跨几个软件的记忆钉在脑子里跑到第四个应用界面时精准背出第一个软件里刚刚生成的项目识别码。最迫在眉睫的改变是像个被现实毒打过的老员工那样长出复查核验的心眼。做完一个操作退出来重新查询一遍用真实的查询结果去验证动作是否真的落到了实处而不是蒙着眼睛一路瞎跑。前述数据还引发了一个更底层的反思。强行让机器适应给人类眼睛和手指量身定做的繁杂软件从根源上可能就走错了方向。软件里塞满了为了让人类看着舒服而设计的各类花哨菜单、隐藏折叠面板和延迟加载效果花哨界面对机器来说全是毫无意义的绊脚石。与其费尽心机训练Agent在复杂的下拉菜单里大海捞针商业软件行业更应该主动刮骨疗毒打造一套从底层就原生适配人工智能调用的界面规则。当Agent大军真正走进办公室的那天曾经为了折磨人类而发明的复杂管理软件必将迎来一场推倒重来的全面重构。参考资料https://unipat.ai/blog/SaaS-Benchhttps://github.com/UniPat-AI/SaaS-Benchhttps://arxiv.org/pdf/2605.15777
顶级模型职场任务完成率不到4%,AI离抢饭碗还差得远!
发布时间:2026/5/26 23:17:20
AI助手被媒体吹得无所不能。大家开始憧憬让这些Agent走进办公室登录各种SaaS软件即服务系统帮我们处理报销、管理库存或者分析财务报表。然而最强的AI智能体在面对真实的职业工作流时任务完成率竟然不到4%。最近UniPat AI、北京大学等机构发布了SaaS-Bench基准。这项研究把市面上最顶尖的AI模型都拉到了真实的办公软件环境里。研究人员给它们准备了23个真实的SaaS系统涵盖了财务、医疗、管理等6个职业领域。结果发现要让AI真正干活还差得远呢。UniPatAI是一家专注于让AI不仅能“说”更能“做”的初创公司。公司目标是让AI具有可验证、可执行、与结果挂钩的真实操作从科研和预测这两个高壁垒领域入手加速AI向现实世界自动化演进。其核心成员来自通义千问、Kimi、小米和字节Seed等团队在构建推理模型和复杂决策系统方面经验丰富。下面我们就通过这份研究看看目前的AI智能体在真实职场中到底遇到了哪些迈不过去的坎。真实工作不是点网页过去几年科技圈对能操作电脑的Agent抱有极大期望。机器不仅能回答问题还能主动出击代替人类打开浏览器敲击键盘点击按钮。从被动理解语言走向主动执行复杂动作业界将Agent视为通向未来的必由之路。人们总是容易高估点点鼠标和真正做完一项工作的区别。在真实的职场环境里工作很少在同一个页面里点几下就能结束。一项平凡无奇的财务报销通常始于CRM客户关系管理系统里的审批中间需要穿梭到人力资源后台核对出差数据最后在复杂的财务软件里完成入账还要顺手发一封通知邮件。面对环环相扣的过程难点根本不在于人工智能能否找到发亮的确认按钮。真正的考验在于Agent必须在横跨多个软件的长途跋涉中保持清晰的意图记住上一步拿到的数据应对随时弹出的报错提示还要确保最终产出的结果能通过严格的审计。以往的测试题太简单了。开发者在做系统测验时经常拿高度简化的孤立网页或者仅仅包含三五个步骤的模拟小任务来充数。Agent在温室环境里轻轻松松拿到高分让人误以为马上就能走进格子间顶替高级白领。真把机器拉进企业真刀真枪在用的系统里滤镜瞬间碎了一地。为了搞清楚人工智能到底具备多少真正的职场战斗力研究团队精心打造了SaaS-Bench。一个专为审视Agent真实工作能力量身定做的测试基准包含了23个真实可部署的SaaS软件即服务系统。软件横跨6大硬核专业领域软件工程与项目管理、商业运营与财务、医疗行政、团队协作与文档工作流、农业供应链、独立媒体创作。为了还原最真实的职场折磨测试库内置了106个逼真的工作任务。有74个纯文本任务还有32个需要看图看文档的多模态任务。高达93%的任务要求跨越至少两个以上的应用程序一半以上的任务更是要在三个不同的软件间反复横跳。最折磨人的是任务的平均操作步骤远超100步。新测试库在环境真实度、跨应用协同和长链路执行三大核心维度上把以往的玩具级测试彻底颠覆。自带真实的数据库、真实的用户权限密码和极度死板的商业运行逻辑。上面圆环图展示了任务的复杂构成。最外圈密密麻麻的应用图标代表了每一个打工人日常必须面对的枯燥软件。从开源的医疗记录系统OpenEMR开源电子病历系统到复杂的财务工具BigCapital开源财务软件再到文档处理神器OnlyOffice办公套件每一个领域的应用都被深度卷入。条形分布图更直观展示了任务漫长得令人发指。绝大多数文本任务都在100步之上部分任务的执行轨迹甚至逼近了400步的极限彻底告别点三下就交差的过家家模式。看起来很美但没完成为了公平公正测试人员把Agent扔进装满各种应用系统的虚拟容器里。软件统统被Docker固化并且锁定了版本和初始配置。每次开始新任务前所有的数据库和缓存都会被冷酷重置到最初始的干净状态保证所有的模型都在同一条起跑线上。Agent只能像最普通的实习生那样盯着屏幕渲染出来的DOM树结构和截图用鼠标键盘一步步点敲。任何走后门调取后台接口或者偷偷查看数据库的作弊行为全被封杀。面对冗长的任务研究团队定下了两种极为苛刻的评分标准。第一种叫检查点得分任务被拆解成十几个需要验证的核心环节每作对一个环节拿一部分权重分。类似算法心肠还算柔软能看出Agent在彻底趴下之前到底往前挪了多远。第二种叫解决得分本质是极其残酷的一票否决制。要求一项工作里所有的检查点必须全对只要中间错了一个微不足道的数据哪怕进度条已经冲到了99%也直接计为0分。职场从来不相信苦劳只看最后的交付结果。沉甸甸的成绩单揭开了一场华丽的溃败。即使是当前公认最顶尖的模型Claude Opus 4.7凭借着高超的文本理解能力拿到了近44%的平均检查点得分最终能彻底搞定、完全解决任务的比例仅仅停留在让人心寒的3.8%。大部分明星模型都能热火朝天开工点击新建表单敲入几行文字做着做着就彻底迷失了方向。面对相对简单的团队协作领域起草文档并发送几封带抄送的邮件勉强能拿点分。碰到商业运营或医疗行政边界里到处是数字约束、具有严格数据底层的硬核流程直接跪倒在地。成绩崩盘根本不是差了临门一脚的问题而是数学规律在无情展现威力。长链路任务像是一把极为苛刻的漏斗把一众伪装的高手全筛了下去。假设一项工作被拆成了12个连续的步骤每个单一步骤做对的概率高达95%看起来极其完美。把12个0.95乘在一起最终能完整交付全对结果的概率连55%都不到。图中三条触目惊心的下滑曲线完美记录了失败轨迹。任务牵扯的应用软件越多要求的操作步骤越长背后埋伏的检查点越细致Agent的得分就以肉眼可见的速度摔向谷底。掩盖得分下的致命伤拿不到高分的表象之下深藏着人工智能理解真实世界的结构性盲区。顺着数百步的操作记录深挖研究人员发现Agent在应对复杂商业软件时暴露出四种让人啼笑皆非的致命毛病。第一种毛病叫多米诺骨牌式的连环崩溃。真实世界里上游系统建错的一个名字会让下游所有的账单变成烂账。在一个编号为bof_032的测试里系统要求在财务软件里建立一个名叫Arcturus Digital的企业客户并在此名下挂靠两笔阶段性发票和付款记录。某顶级大模型一顿操作猛如虎在新建客户的表单里填了公司名又顺手在个人姓名栏填了对接人的名字。系统判定填了人名自动把属性变成了个人客户。Agent完全不知情看着屏幕上显示的姓名括号公司名标签心满意足继续开票做账历经398步兴奋提交了任务。审查程序在数据库里搜索企业客户Arcturus Digital查无此人后面的所有账务彻底成了无源之水。有七个模型全倒在隐秘的坑里读不懂业务概念在底层数据库里究竟代表着什么实体。第二种毛病叫盲目自信到了自欺欺人的地步。研究人员扒开了脑电波查看内部评估日志发现了令人捧腹的真相。处理报销单时Agent走到第124步敏锐察觉自己把账单日期填成了19号而要求是20号。在内部日志里老老实实写下要修改日期的计划。41步过去后动手点了几下按钮连页面都没刷新直接在日志里给自己打了满分。任务结束的最终报告里信誓旦旦声明日期已经完美设定为20日。后台数据证明日期根本没改动。人类打工人在修正错误后一定会盯着屏幕确认数字对不对机器压根没有事后闭环验证的本能全凭着自己的规划强行宣告胜利。第三种毛病是前后巨大的波动性。就像个状态飘忽不定的新员工布置一模一样的作业每次交回来的结果判若两人。让同一个模型操作人力资源的申诉处理流程第一次彻底交了白卷。第二次跑到一半卡死在软件里。第三次宛如神明附体一路过关斩将拿到了近68%的分数。并不是环境在变化每次启动前系统都被清零复原。背后的真相是长途跋涉充满了分岔路口。一次微小的选项犹豫或者在某个不熟悉的按钮上多点了五十次耗光了所有操作配额导致整个任务走向完全不同的结局。研究人员特意放宽了要求做了允许多次尝试的测试。柱状图清晰可见给三次机会确实能挽救一些分数进一步证明运气因素在整个过程中扮演了不可忽略的角色。微末的提升距离让打工人安心交接工作还有好几十条街的距离。软件该为AI重做当前的Agent设计思路走入了一个看似热闹却收效甚微的怪圈。开发工程师满脑子装的都是如何教机器认全网页上的像素点如何找准下拉框反而忽略了职场工作的核心灵魂在于业务逻辑的闭环流转。为了打造出真实的试金石团队搬出了由构建者、挑战者、提炼者组成的评审法庭。大模型负责批量生成测试提案人类专家充当最挑剔的考官把完全不切实际、把CRM系统当垃圾桶乱塞数据的奇葩任务通通毙掉。经过静态检查和人工试运行的双重残酷清洗仅仅只有45%的候选任务存活下来。严格淘汰机制保驾护航之下每一道题都是职场里每天都在发生的真实苦难。Agent想要成为合格的数字员工必须经历脱胎换骨的进化。点完确认键脑子里必须明白不仅仅是页面刷新了一下而是远端服务器里的数据库多出了一条不可磨灭的记录。学会把横跨几个软件的记忆钉在脑子里跑到第四个应用界面时精准背出第一个软件里刚刚生成的项目识别码。最迫在眉睫的改变是像个被现实毒打过的老员工那样长出复查核验的心眼。做完一个操作退出来重新查询一遍用真实的查询结果去验证动作是否真的落到了实处而不是蒙着眼睛一路瞎跑。前述数据还引发了一个更底层的反思。强行让机器适应给人类眼睛和手指量身定做的繁杂软件从根源上可能就走错了方向。软件里塞满了为了让人类看着舒服而设计的各类花哨菜单、隐藏折叠面板和延迟加载效果花哨界面对机器来说全是毫无意义的绊脚石。与其费尽心机训练Agent在复杂的下拉菜单里大海捞针商业软件行业更应该主动刮骨疗毒打造一套从底层就原生适配人工智能调用的界面规则。当Agent大军真正走进办公室的那天曾经为了折磨人类而发明的复杂管理软件必将迎来一场推倒重来的全面重构。参考资料https://unipat.ai/blog/SaaS-Benchhttps://github.com/UniPat-AI/SaaS-Benchhttps://arxiv.org/pdf/2605.15777