7B小模型吊打GPT-5CarePilot用Actor-Critic范式攻克医疗软件自动化核心摘要医疗软件的GUI操作极度依赖专业人员而现有的GUI Agent在医疗场景下几乎全军覆没——GPT-5在复杂临床工作流上的任务完成率也只有36%。MBZUAI、IIT Patna等团队提出CarePilot框架基于Actor-Critic多智能体架构配合工具接地Tool Grounding和双重记忆机制让一个7B参数的开源模型在医疗GUI任务上达到48.9%的准确率比GPT-5高出近13个百分点。同时团队开源了CareFlow——目前第一个针对医疗软件的长步骤GUI操作基准。这篇工作的价值不在于又一个多智能体框架而在于它瞄准了一个真实且被忽视的垂直场景并证明了小模型好框架在特定领域可以跑赢大模型的零样本能力。论文标题CarePilot: A Multi-Agent Framework for Long-Horizon Computer Task Automation in Healthcare作者Akash Ghosh, Tajamul Ashraf, Rishu Kumar Singh, Numan Saeed, Sriparna Saha, Xiuying Chen, Salman Khan论文链接https://arxiv.org/abs/2603.24157发布日期2026年3月25日 这篇论文要解决什么问题你可以回忆一下去医院做检查的场景放射科医生需要在DICOM查看器里加载CT影像、放大特定区域、画ROI标注、调整窗宽窗位、写测量报告——这一整套操作涉及十几步甚至二十多步的GUI交互每一步都对位置、顺序和专业知识有严格要求。把这个场景交给AI来做问题就来了现有的GUI Agent比如OSWorld、WebArena等主要面向通用桌面和网页操作对医疗软件几乎没有覆盖。3D Slicer、Weasis、OpenEMR这些临床工具界面复杂、按钮密集、术语专业通用Agent根本hold不住。更关键的是——医疗操作不能错。你在浏览器里误点一个按钮大不了退回来但在医学影像标注里画错ROI区域可能直接影响诊断。作者的出发点很明确通用GUI Agent在医疗场景下的任务完成率低得离谱GPT-5也不到37%需要一套专门的框架和评测基准。 CareFlow第一个医疗GUI操作基准在谈方法之前先看数据。没有好的benchmark方法再漂亮也无从评估。[外链图片转存中…(img-PmTPxTzW-1774861033930)]CareFlow任务示例在3D Slicer中执行一个完整的CT影像分析流程涉及6个不同类型的操作步骤CareFlow覆盖了4个主流的开源医疗软件平台平台类型典型操作3D Slicer医学影像分析加载CT/MRI、3D渲染、标注、测量WeasisDICOM查看器窗宽窗位调整、序列浏览、ROI绘制Orthanc医学影像服务器DICOM检索、上传、患者管理OpenEMR电子病历系统患者信息录入、处方管理、报告生成数据集规模总共1100个任务训练735 测试315 分布外测试50每个任务包含8-24步操作平均步数约12.8。另外还有50个OpenHospital平台的任务专门用于评估分布外OOD泛化能力。CareFlow数据集的划分与各平台占比分布操作空间定义了6种核心动作CLICK点击、SCROLL滚动、ZOOM缩放、TEXT文本输入、SEGMENT分割标注和COMPLETE任务完成。这个设计比较合理——它是语义级别的高层操作不需要预测像素坐标降低了动作预测的难度。测试集任务的步骤数分布从9步到24步不等主要集中在10-19步区间值得一提的是CareFlow的任务设计来源于真实的临床工作流不是简单的打开文件→关闭文件这种toy task。比如一个完整任务可能是“加载患者的CT腹部序列→切换到轴位视图→放大肝脏区域→用多边形工具圈出可疑病灶→滚动到统计面板查看测量值→添加’Suspicious Lesion’标注→完成任务”。这种长步骤、强依赖的任务链路对Agent的规划和容错能力是真实的考验。️ CarePilot框架Actor-Critic多智能体架构框架的核心思路一句话概括Actor负责执行动作Critic负责校验和反馈通过蒸馏把Critic的专业判断力灌输给Actor。CarePilot架构Actor Agent执行动作预测Critic Agent评估纠错层级反思机制跨越动作、轨迹和全局三个层次Actor Agent带工具箱的执行者Actor的输入是当前屏幕截图 任务指令 工具接地信号 记忆上下文输出是一个语义动作比如CLICK[Load DICOM]。工具接地Tool Grounding是Actor区别于普通VLM Agent的关键设计。医疗软件界面信息密度极高——一个3D Slicer的屏幕上可能有上百个按钮、滑块和面板。直接让VLM从原始截图去理解该点哪里效果很差。所以CarePilot给Actor配备了4个感知工具目标检测Object Detection定位界面元素——按钮、输入框、下拉菜单等缩放增强Zoom/Crop对感兴趣区域放大看清小字和小图标OCR识别界面上的文字标签知道每个按钮叫什么模板匹配Template Matching利用历史经验匹配相似的界面布局这4个工具通过本地Python API运行处理结果作为结构化信号注入Actor的prompt。这种设计的好处是把视觉感知和决策推理解耦不让VLM又当眼睛又当脑子。Critic Agent三层反思的审核官Critic不只是简单地判断对/错它执行层级反思Hierarchical Reflection分为三个层次反思层级触发时机判断内容输出动作反思每步执行后当前动作是否符合预期短期记忆更新轨迹反思检测到循环/重复最近几步是否陷入了死循环长期记忆更新全局反思任务结束前任务目标是否完成要不要提前终止长期记忆更新Critic还有一个有意思的设计——三种反馈风格保守Conservative、中性Neutral、激进Aggressive。保守风格倾向于谨慎纠错激进风格更果断但容易过度干预。最终实验表明中性风格效果最好。双重记忆机制短期记忆Short-Term Memory存储最近几步的动作和Critic反馈类似工作记忆长期记忆Long-Term Memory存储跨任务的经验总结比如在Weasis里切换视图要先点View菜单而不是右键知识蒸馏从师徒到独当一面训练阶段的精髓在这里先让Actor和Critic协同跑一遍训练集任务收集所有正确的轨迹然后把Critic的校验逻辑蒸馏进Actor的权重里通过SFT微调让Actor在推理时不需要Critic也能做出高质量决策。具体的训练配置基座模型Qwen 2.5 VL-7B / Qwen 3 VL-8B硬件NVIDIA A100 40GB训练时长5-6小时优化器LoRArank2, alpha4, dropout0.1学习率2×10−42 \times 10^{-4}2×10−4精度4-bit量化 FP16混合精度训练轮次2个epoch这个训练开销非常轻量——单卡A100跑几小时就完成了对学术组来说门槛很低。 实验结果7B模型超越GPT-5主实验CareFlow测试集模型Step-Wise Acc (%)Task Acc (%)Qwen 2.5 VL-7B零样本57.181.78Llama 4 Maverick80.5319.20GPT-4o83.1325.40GPT-585.2236.19CarePilotQwen 2.5 VL-7B88.0548.90CarePilotQwen 3 VL-8B90.1851.45几个关键发现1. 零样本 vs 微调的巨大鸿沟Qwen 2.5 VL-7B零样本只有1.78%的任务完成率但经过CarePilot框架微调后飙升到48.90%——提升了47个百分点。说明医疗GUI确实是一个需要专门适配的领域通用能力在这里几乎无效。2. 小模型好框架 大模型零样本7B的CarePilot在Task Accuracy上比GPT-536.19%高了近13个百分点。Step-Wise Accuracy上也领先约3个点。GPT-5的单步准确率其实不低85.22%但长步骤任务中每一步的小错误会层层累积导致最终完成率骤降。3. 各平台表现差异CarePilot在Orthanc影像服务器上表现最好55-56.67%在OpenEMR电子病历上也不错46.25-56.70%但在3D Slicer这种复杂影像分析工具上相对弱一些。这和直觉一致——3D Slicer的操作复杂度远高于Orthanc。分布外泛化OpenHospital模型Step-Wise Acc (%)Task Acc (%)GPT-579.7034.80CarePilotQwen 2.5 VL-7B77.9336.40CarePilotQwen 3 VL-8B79.2738.18在从未见过的OpenHospital平台上CarePilot仍然略微领先GPT-5。但差距缩小了很多——这说明CarePilot的优势一部分来自于对目标平台的适配泛化到全新平台时优势有所减弱。不过对一个7B模型来说能在OOD场景上与GPT-5打平已经是不错的结果。随步骤数增加的性能衰减CarePilot的准确率随任务步骤数增加而显著下降小于10步时约65%超过20步时降至27%这张图暴露了一个核心问题长步骤任务仍然是Agent的致命弱点。当任务超过20步时准确率从65%骤降到27%。这不是CarePilot独有的问题——任何基于逐步决策的Agent都面临误差累积的挑战。 消融实验每个组件的贡献Critic Agent的影响配置Step-Wise Acc (%)Task Acc (%)无Critic65.373.75无Critic 工具接地72.9812.5完整CarePilot88.0548.90Critic Agent的加入带来了36个百分点的Task Accuracy提升从12.5%到48.9%。这个提升幅度说明在医疗GUI这种高精度要求的场景下单纯的看一眼就做决定远远不够做完再检查这个闭环反馈是不可或缺的。各组件消融工具接地长期记忆短期记忆Step-Wise Acc (%)Task Acc (%)✗✓✓73.209.37✓✗✓82.1023.67✓✓✗80.4030.42✓✓✓88.0548.90工具接地的影响最大——去掉后Task Accuracy从48.9%暴跌到9.37%。这再次印证了前面的分析医疗软件界面太复杂不做结构化感知VLM根本看不懂屏幕上的内容。工具组件细粒度消融目标检测缩放增强OCR模板匹配Task Acc (%)✗✓✓✓38.59✓✗✓✓46.31✓✓✗✓30.87✓✓✓✗25.73✓✓✓✓48.90模板匹配Template Matching去掉后影响最大——Task Acc从48.9%降到25.73%。这可能是因为医疗软件的界面布局相对固定模板匹配能有效利用这种结构化先验。OCR的去掉也造成了18个点的下降48.9%→30.87%毕竟不认字就不知道该点哪个按钮。 案例对比案例对比3D SlicerCarePilot在关键操作如ZOOM、SEGMENT上与Ground Truth一致而LLAMA Maverick在多个步骤上预测错误案例对比WeasisGPT-5在ZOOM和SCROLL操作上出现错误CarePilot的动作预测与Ground Truth高度吻合从案例可以看出通用大模型最常犯的错误是动作类型混淆——该ZOOM的时候做了CLICK该SEGMENT的时候做了SCROLL。这不是理解力不够的问题而是缺乏对医疗软件操作逻辑的领域知识。 批判性分析亮点1. 场景选择精准医疗GUI自动化是一个真实存在的痛点而非人造需求。临床工作者每天大量时间耗费在重复的软件操作上自动化价值显著。2. 基准贡献大于方法贡献坦率说CarePilot的方法论——Actor-Critic Tool Grounding Memory——单个组件都不算新。但CareFlow基准本身是一个实打实的贡献。医疗GUI此前没有像样的评测集这个空白被填上了。3. 训练成本极低单卡A100跑5-6小时、LoRA rank2这个成本学术实验室完全可以承受。需要注意的问题1. 评估标准偏宽松论文的Step-Wise Accuracy是语义级别匹配预测的动作类型和目标元素是否正确不考虑像素级坐标精度。在实际部署中你知道该点击Load按钮是一回事能不能在屏幕上精确定位到那个按钮又是另一回事。这个差距论文没有讨论。2. 51%的任务完成率离实用还很远最好的CarePilot变体也只有51.45%的Task Accuracy。换句话说将近一半的任务完不成。在医疗场景下这个可靠性水平离临床部署还差得远。3. OOD泛化优势有限在OpenHospital上仅比GPT-5高约3个点说明框架的领域迁移能力还有提升空间。如果每换一个新软件就要重新收集数据和微调实用性会打折扣。4. 长步骤衰减问题没有好的解决方案20步以上的任务准确率降到27%而很多真实临床工作流远不止20步。层级反思机制虽然有帮助但并没有根本解决误差累积问题。5. 数据集规模偏小735个训练任务对于一个覆盖4个平台的基准来说每个平台不到200个任务。模型可能在一定程度上过拟合了这些有限的操作模式。 工程落地思考如果要在实际医疗场景中使用类似框架有几个方向值得关注和专有API结合医疗软件通常有DICOM标准接口和HL7 FHIR接口把GUI操作和API调用混合使用可能比纯GUI Agent更可靠人机协同模式51%的完成率不够自主但用作操作建议或半自动执行Agent操作人工确认可能是更现实的落地路径增量学习每个医院的软件配置和操作习惯不同框架需要支持低成本的在线适配 总结CarePilot这篇工作的核心价值在于两点一是CareFlow基准填补了医疗GUI Agent评测的空白二是证明了小模型领域适配框架在垂直场景下可以超越大模型的零样本能力。Actor-Critic架构、工具接地、双重记忆这些组件的组合虽然不算新颖但在医疗GUI这个具体场景下确实管用。不过也别过度乐观51%的任务完成率离临床可用还有不小的距离长步骤任务的误差累积问题依然严峻而且语义级动作到实际屏幕操作之间还有一道鸿沟需要跨越。医疗AI Agent这个赛道才刚开始这篇论文提供了一个不错的起点和评测框架。觉得有启发的话欢迎点赞、在看、转发。跟进最新AI前沿关注公众号机器懂语言
7B小模型吊打GPT-5?CarePilot用Actor-Critic范式攻克医疗软件自动化
发布时间:2026/5/24 5:35:07
7B小模型吊打GPT-5CarePilot用Actor-Critic范式攻克医疗软件自动化核心摘要医疗软件的GUI操作极度依赖专业人员而现有的GUI Agent在医疗场景下几乎全军覆没——GPT-5在复杂临床工作流上的任务完成率也只有36%。MBZUAI、IIT Patna等团队提出CarePilot框架基于Actor-Critic多智能体架构配合工具接地Tool Grounding和双重记忆机制让一个7B参数的开源模型在医疗GUI任务上达到48.9%的准确率比GPT-5高出近13个百分点。同时团队开源了CareFlow——目前第一个针对医疗软件的长步骤GUI操作基准。这篇工作的价值不在于又一个多智能体框架而在于它瞄准了一个真实且被忽视的垂直场景并证明了小模型好框架在特定领域可以跑赢大模型的零样本能力。论文标题CarePilot: A Multi-Agent Framework for Long-Horizon Computer Task Automation in Healthcare作者Akash Ghosh, Tajamul Ashraf, Rishu Kumar Singh, Numan Saeed, Sriparna Saha, Xiuying Chen, Salman Khan论文链接https://arxiv.org/abs/2603.24157发布日期2026年3月25日 这篇论文要解决什么问题你可以回忆一下去医院做检查的场景放射科医生需要在DICOM查看器里加载CT影像、放大特定区域、画ROI标注、调整窗宽窗位、写测量报告——这一整套操作涉及十几步甚至二十多步的GUI交互每一步都对位置、顺序和专业知识有严格要求。把这个场景交给AI来做问题就来了现有的GUI Agent比如OSWorld、WebArena等主要面向通用桌面和网页操作对医疗软件几乎没有覆盖。3D Slicer、Weasis、OpenEMR这些临床工具界面复杂、按钮密集、术语专业通用Agent根本hold不住。更关键的是——医疗操作不能错。你在浏览器里误点一个按钮大不了退回来但在医学影像标注里画错ROI区域可能直接影响诊断。作者的出发点很明确通用GUI Agent在医疗场景下的任务完成率低得离谱GPT-5也不到37%需要一套专门的框架和评测基准。 CareFlow第一个医疗GUI操作基准在谈方法之前先看数据。没有好的benchmark方法再漂亮也无从评估。[外链图片转存中…(img-PmTPxTzW-1774861033930)]CareFlow任务示例在3D Slicer中执行一个完整的CT影像分析流程涉及6个不同类型的操作步骤CareFlow覆盖了4个主流的开源医疗软件平台平台类型典型操作3D Slicer医学影像分析加载CT/MRI、3D渲染、标注、测量WeasisDICOM查看器窗宽窗位调整、序列浏览、ROI绘制Orthanc医学影像服务器DICOM检索、上传、患者管理OpenEMR电子病历系统患者信息录入、处方管理、报告生成数据集规模总共1100个任务训练735 测试315 分布外测试50每个任务包含8-24步操作平均步数约12.8。另外还有50个OpenHospital平台的任务专门用于评估分布外OOD泛化能力。CareFlow数据集的划分与各平台占比分布操作空间定义了6种核心动作CLICK点击、SCROLL滚动、ZOOM缩放、TEXT文本输入、SEGMENT分割标注和COMPLETE任务完成。这个设计比较合理——它是语义级别的高层操作不需要预测像素坐标降低了动作预测的难度。测试集任务的步骤数分布从9步到24步不等主要集中在10-19步区间值得一提的是CareFlow的任务设计来源于真实的临床工作流不是简单的打开文件→关闭文件这种toy task。比如一个完整任务可能是“加载患者的CT腹部序列→切换到轴位视图→放大肝脏区域→用多边形工具圈出可疑病灶→滚动到统计面板查看测量值→添加’Suspicious Lesion’标注→完成任务”。这种长步骤、强依赖的任务链路对Agent的规划和容错能力是真实的考验。️ CarePilot框架Actor-Critic多智能体架构框架的核心思路一句话概括Actor负责执行动作Critic负责校验和反馈通过蒸馏把Critic的专业判断力灌输给Actor。CarePilot架构Actor Agent执行动作预测Critic Agent评估纠错层级反思机制跨越动作、轨迹和全局三个层次Actor Agent带工具箱的执行者Actor的输入是当前屏幕截图 任务指令 工具接地信号 记忆上下文输出是一个语义动作比如CLICK[Load DICOM]。工具接地Tool Grounding是Actor区别于普通VLM Agent的关键设计。医疗软件界面信息密度极高——一个3D Slicer的屏幕上可能有上百个按钮、滑块和面板。直接让VLM从原始截图去理解该点哪里效果很差。所以CarePilot给Actor配备了4个感知工具目标检测Object Detection定位界面元素——按钮、输入框、下拉菜单等缩放增强Zoom/Crop对感兴趣区域放大看清小字和小图标OCR识别界面上的文字标签知道每个按钮叫什么模板匹配Template Matching利用历史经验匹配相似的界面布局这4个工具通过本地Python API运行处理结果作为结构化信号注入Actor的prompt。这种设计的好处是把视觉感知和决策推理解耦不让VLM又当眼睛又当脑子。Critic Agent三层反思的审核官Critic不只是简单地判断对/错它执行层级反思Hierarchical Reflection分为三个层次反思层级触发时机判断内容输出动作反思每步执行后当前动作是否符合预期短期记忆更新轨迹反思检测到循环/重复最近几步是否陷入了死循环长期记忆更新全局反思任务结束前任务目标是否完成要不要提前终止长期记忆更新Critic还有一个有意思的设计——三种反馈风格保守Conservative、中性Neutral、激进Aggressive。保守风格倾向于谨慎纠错激进风格更果断但容易过度干预。最终实验表明中性风格效果最好。双重记忆机制短期记忆Short-Term Memory存储最近几步的动作和Critic反馈类似工作记忆长期记忆Long-Term Memory存储跨任务的经验总结比如在Weasis里切换视图要先点View菜单而不是右键知识蒸馏从师徒到独当一面训练阶段的精髓在这里先让Actor和Critic协同跑一遍训练集任务收集所有正确的轨迹然后把Critic的校验逻辑蒸馏进Actor的权重里通过SFT微调让Actor在推理时不需要Critic也能做出高质量决策。具体的训练配置基座模型Qwen 2.5 VL-7B / Qwen 3 VL-8B硬件NVIDIA A100 40GB训练时长5-6小时优化器LoRArank2, alpha4, dropout0.1学习率2×10−42 \times 10^{-4}2×10−4精度4-bit量化 FP16混合精度训练轮次2个epoch这个训练开销非常轻量——单卡A100跑几小时就完成了对学术组来说门槛很低。 实验结果7B模型超越GPT-5主实验CareFlow测试集模型Step-Wise Acc (%)Task Acc (%)Qwen 2.5 VL-7B零样本57.181.78Llama 4 Maverick80.5319.20GPT-4o83.1325.40GPT-585.2236.19CarePilotQwen 2.5 VL-7B88.0548.90CarePilotQwen 3 VL-8B90.1851.45几个关键发现1. 零样本 vs 微调的巨大鸿沟Qwen 2.5 VL-7B零样本只有1.78%的任务完成率但经过CarePilot框架微调后飙升到48.90%——提升了47个百分点。说明医疗GUI确实是一个需要专门适配的领域通用能力在这里几乎无效。2. 小模型好框架 大模型零样本7B的CarePilot在Task Accuracy上比GPT-536.19%高了近13个百分点。Step-Wise Accuracy上也领先约3个点。GPT-5的单步准确率其实不低85.22%但长步骤任务中每一步的小错误会层层累积导致最终完成率骤降。3. 各平台表现差异CarePilot在Orthanc影像服务器上表现最好55-56.67%在OpenEMR电子病历上也不错46.25-56.70%但在3D Slicer这种复杂影像分析工具上相对弱一些。这和直觉一致——3D Slicer的操作复杂度远高于Orthanc。分布外泛化OpenHospital模型Step-Wise Acc (%)Task Acc (%)GPT-579.7034.80CarePilotQwen 2.5 VL-7B77.9336.40CarePilotQwen 3 VL-8B79.2738.18在从未见过的OpenHospital平台上CarePilot仍然略微领先GPT-5。但差距缩小了很多——这说明CarePilot的优势一部分来自于对目标平台的适配泛化到全新平台时优势有所减弱。不过对一个7B模型来说能在OOD场景上与GPT-5打平已经是不错的结果。随步骤数增加的性能衰减CarePilot的准确率随任务步骤数增加而显著下降小于10步时约65%超过20步时降至27%这张图暴露了一个核心问题长步骤任务仍然是Agent的致命弱点。当任务超过20步时准确率从65%骤降到27%。这不是CarePilot独有的问题——任何基于逐步决策的Agent都面临误差累积的挑战。 消融实验每个组件的贡献Critic Agent的影响配置Step-Wise Acc (%)Task Acc (%)无Critic65.373.75无Critic 工具接地72.9812.5完整CarePilot88.0548.90Critic Agent的加入带来了36个百分点的Task Accuracy提升从12.5%到48.9%。这个提升幅度说明在医疗GUI这种高精度要求的场景下单纯的看一眼就做决定远远不够做完再检查这个闭环反馈是不可或缺的。各组件消融工具接地长期记忆短期记忆Step-Wise Acc (%)Task Acc (%)✗✓✓73.209.37✓✗✓82.1023.67✓✓✗80.4030.42✓✓✓88.0548.90工具接地的影响最大——去掉后Task Accuracy从48.9%暴跌到9.37%。这再次印证了前面的分析医疗软件界面太复杂不做结构化感知VLM根本看不懂屏幕上的内容。工具组件细粒度消融目标检测缩放增强OCR模板匹配Task Acc (%)✗✓✓✓38.59✓✗✓✓46.31✓✓✗✓30.87✓✓✓✗25.73✓✓✓✓48.90模板匹配Template Matching去掉后影响最大——Task Acc从48.9%降到25.73%。这可能是因为医疗软件的界面布局相对固定模板匹配能有效利用这种结构化先验。OCR的去掉也造成了18个点的下降48.9%→30.87%毕竟不认字就不知道该点哪个按钮。 案例对比案例对比3D SlicerCarePilot在关键操作如ZOOM、SEGMENT上与Ground Truth一致而LLAMA Maverick在多个步骤上预测错误案例对比WeasisGPT-5在ZOOM和SCROLL操作上出现错误CarePilot的动作预测与Ground Truth高度吻合从案例可以看出通用大模型最常犯的错误是动作类型混淆——该ZOOM的时候做了CLICK该SEGMENT的时候做了SCROLL。这不是理解力不够的问题而是缺乏对医疗软件操作逻辑的领域知识。 批判性分析亮点1. 场景选择精准医疗GUI自动化是一个真实存在的痛点而非人造需求。临床工作者每天大量时间耗费在重复的软件操作上自动化价值显著。2. 基准贡献大于方法贡献坦率说CarePilot的方法论——Actor-Critic Tool Grounding Memory——单个组件都不算新。但CareFlow基准本身是一个实打实的贡献。医疗GUI此前没有像样的评测集这个空白被填上了。3. 训练成本极低单卡A100跑5-6小时、LoRA rank2这个成本学术实验室完全可以承受。需要注意的问题1. 评估标准偏宽松论文的Step-Wise Accuracy是语义级别匹配预测的动作类型和目标元素是否正确不考虑像素级坐标精度。在实际部署中你知道该点击Load按钮是一回事能不能在屏幕上精确定位到那个按钮又是另一回事。这个差距论文没有讨论。2. 51%的任务完成率离实用还很远最好的CarePilot变体也只有51.45%的Task Accuracy。换句话说将近一半的任务完不成。在医疗场景下这个可靠性水平离临床部署还差得远。3. OOD泛化优势有限在OpenHospital上仅比GPT-5高约3个点说明框架的领域迁移能力还有提升空间。如果每换一个新软件就要重新收集数据和微调实用性会打折扣。4. 长步骤衰减问题没有好的解决方案20步以上的任务准确率降到27%而很多真实临床工作流远不止20步。层级反思机制虽然有帮助但并没有根本解决误差累积问题。5. 数据集规模偏小735个训练任务对于一个覆盖4个平台的基准来说每个平台不到200个任务。模型可能在一定程度上过拟合了这些有限的操作模式。 工程落地思考如果要在实际医疗场景中使用类似框架有几个方向值得关注和专有API结合医疗软件通常有DICOM标准接口和HL7 FHIR接口把GUI操作和API调用混合使用可能比纯GUI Agent更可靠人机协同模式51%的完成率不够自主但用作操作建议或半自动执行Agent操作人工确认可能是更现实的落地路径增量学习每个医院的软件配置和操作习惯不同框架需要支持低成本的在线适配 总结CarePilot这篇工作的核心价值在于两点一是CareFlow基准填补了医疗GUI Agent评测的空白二是证明了小模型领域适配框架在垂直场景下可以超越大模型的零样本能力。Actor-Critic架构、工具接地、双重记忆这些组件的组合虽然不算新颖但在医疗GUI这个具体场景下确实管用。不过也别过度乐观51%的任务完成率离临床可用还有不小的距离长步骤任务的误差累积问题依然严峻而且语义级动作到实际屏幕操作之间还有一道鸿沟需要跨越。医疗AI Agent这个赛道才刚开始这篇论文提供了一个不错的起点和评测框架。觉得有启发的话欢迎点赞、在看、转发。跟进最新AI前沿关注公众号机器懂语言