ClinEnv：面向Agent的交互式多阶段电子健康记录（EHR）环境

发布时间：2026/6/2 22:40:10

ClinEnv面向Agent的交互式多阶段电子健康记录EHR环境来源arXiv:2606.02568链接https://arxiv.org/html/2606.02568v1优化日期2026-06-01领域临床AI、电子健康记录EHR、大型语言模型评估、多智能体系统概述与核心范式ClinEnv是一个交互式基准测试用于评估大语言模型LLM作为主治医生在真实住院患者 admissions 上的表现。其核心范式称为纵向住院模拟Longitudinal Inpatient Simulation, LIS。与传统的静态多项选择题基准不同ClinEnv模拟了真实临床实践中医生逐步收集异构信息在不确定性下做出顺序且不可逆的决策提交药物、程序和诊断并通过EHR时间线进行验证核心贡献自动化案例构建将原始EHR admissions 转换为多阶段案例无需人工标注交互式多智能体环境临床信息在未请求时隐藏模型必须向四个专用智能体查询后才能提交决策双重评估框架同时评估决策准确性通过确定性本体匹配和流程质量信息覆盖率、成本效率基准统计数据与数据源指标数值数据源MIMIC-IV v3.1 v2.2住院数3,5091,809名唯一患者决策阶段9,297真实决策26,043决策类型分解诊断71.7%案例跨距平均每案例2.65阶段49.8%为长跨距≥3阶段️ 方法论与架构管线阶段决策提取从出院记录中提取主治级决策若完整记录不可用则缝合各部分时间锚定滑动窗口智能体将每个决策定位到特定的时间线事件阶段构建与验证将时间线分段为有序阶段跳过常规药物持续诊断可判定性扫描滑动窗口扫描识别最终诊断阶段的证据支持ICD代码信息智能体由GPT-5.4-mini驱动智能体角色与视图Patient人口统计学、主诉、现病史、既往史患者语言Nurse生命体征、液体平衡、MAR、床旁观察Lab实验室/微生物学结果语义查询解析History既往出院总结纵向上下文交互模式直接模式模型接收完整阶段上下文无需查询即可提交决策交互模式从无数据开始最多60轮每轮恰好一次工具调用。结构化提交强制每种决策类型的精确计数以隔离推理与格式推断评估框架与指标决策准确性匹配匈牙利算法针对每种决策类型诊断、药物、程序药物评分动作类型门控开始/停止/切换/调整 ATC层次部分得分诊断/程序评分层次F1HDF1基于ICD祖先集流程质量信息效率奖励精简查询惩罚冗余查询实验室成本效率将订购测试映射到CMS临床实验室费用时间表计算浪费比率药物获取成本通过RxNorm → NDC → NADAC定价 WHO ATC/DDD估计每日成本关键公式s_{ATC} \begin{cases}1.0 \ell \geq |c^*| \\ 0.8 \ell5 \text{ (化学亚组)} \\ 0.6 \ell4 \text{ (药理类)} \\ 0.3 \ell3 \text{ (治疗组)} \\ 0.1 \ell1 \text{ (解剖组)} \\ 0.0 \text{其他}\end{cases}\text{eff} \frac{\text{cov}}{\max\left(1,\;K/|\mathcal{A}_k|\right)} 关键发现与洞察天花板低最强的模型GPT-5.4仅达到0.306 决策F1表明真实世界临床推理仍有巨大提升空间诊断 vs. 管理模型可靠恢复诊断F10.51但管理决策表现较差F10.17。瓶颈在于选择正确的药物身份而非动作类型长跨距难度性能在第一个管理阶段后急剧下降准确率在第4阶段跌至0.03以下流程-结果解耦结果质量与流程质量相互独立。GPT-5.4-nano等高效率模型实现低浪费4.1%尽管绝对准确率较低信息寻求减少浪费更高的覆盖率与更低的实验室浪费相关知道该寻找什么的模型检索相关证据并避免不必要测试信息访问非瓶颈覆盖率在后期阶段保持稳定或上升但决策准确率崩溃指向临床推理为瓶颈约束局限性与作用范围测量与真实临床实践的一致性而非最佳护理合理替代方案可能得分不及评估仅针对住院场景不涵盖门诊或急诊成本估算基于公开定价实际医院成本可能不同资源链接与下载资源链接arXiv论文https://arxiv.org/html/2606.02568v1GitHub如有https://github.com/…MIMIC-IV数据https://mimicih.github.io/ 实验步骤与脚本资源实验环境配置# 克隆仓库gitclone https://github.com/ClinEnv/ClinEnv.gitcdClinEnv# 创建虚拟环境conda create-nclinenvpython3.10conda activate clinenv# 安装依赖pipinstall-rrequirements.txt# 下载数据如有脚本bashscripts/download_data.sh运行评估# 运行完整评估python run_evaluation.py--modefull--outputresults/# 交互式评估python run_evaluation.py--modeinteractive --max-turns60--outputresults/interactive/# 直接模式评估python run_evaluation.py--modedirect--outputresults/direct/资源下载脚本# 下载MIMIC-IV数据bashscripts/setup_mimic.sh# 下载预训练模型与权重bashscripts/download_models.sh# 验证环境python scripts/validate_setup.py 专家总结ClinEnv 通过引入纵向住院模拟范式填补了临床推理评估领域的空白。其核心价值在于真实性基于真实住院数据涵盖药物、诊断和程序决策交互性模拟医生逐步收集信息的真实过程双重评估不仅评估决策结果还评估决策流程的效率和质量长跨距挑战揭示了模型在长期决策中的性能衰减问题该基准为评估LLM在临床环境中的表现提供了重要工具特别适用于评估模型在不确定性下做出顺序决策的能力。

告别时序图恐惧！用STM32CubeMX和HAL库，5分钟搞定I2C驱动24C02 EEPROM

5分钟极速实战：用STM32CubeMX和HAL库征服I2C-EEPROM开发当开发板上那颗24C02芯片静静等待通信时，许多嵌入式开发者却对着I2C时序图皱起眉头——起始条件、应答脉冲、时钟延展...这些底层细节真的需要全部掌握才能点亮第一个字节吗？本文将颠覆…

2026/6/2 22:39:28 阅读更多

告别调参玄学：用进化计算自动优化你的机器学习模型（附Python代码）

告别调参玄学：用进化计算自动优化你的机器学习模型（附Python代码）调参一直是机器学习工程师和数据科学家最头疼的问题之一。传统的网格搜索和随机搜索不仅耗时耗力，而且往往陷入局部最优。更糟糕的是，这些方法缺乏智能…

2026/6/2 22:37:40 阅读更多

告别DCNv3的卡顿：实测DCNv4在InternImage模型上80%速度提升的配置与调优心得

告别DCNv3的卡顿：实测DCNv4在InternImage模型上80%速度提升的配置与调优心得如果你正在使用基于DCNv3的InternImage模型，大概率遇到过这样的困扰：训练时等待时间漫长，推理时响应迟缓，明明硬件配置不差，性能…

2026/6/2 22:37:19 阅读更多

如何永久保存微信聊天记录？这个开源工具让你轻松备份珍贵回忆

如何永久保存微信聊天记录？这个开源工具让你轻松备份珍贵回忆【免费下载链接】WeChatExporter 一个可以快速导出、查看你的微信聊天记录的工具项目地址: https://gitcode.com/gh_mirrors/wec/WeChatExporter 你是否曾经因为手机丢失或更换，而永…

2026/6/2 23:43:38 阅读更多

手把手教你用科大讯飞离线语音SDK，为GEC6818打造一个语音控制服务器

基于GEC6818与科大讯飞离线SDK构建高可靠语音控制服务器实战指南在智能家居和物联网设备爆发式增长的今天，离线语音交互能力正成为嵌入式开发的刚需。想象一下，当你的智能中控系统无需依赖云端就能准确响应"打开客厅灯光"或"调高空调温度…

2026/6/2 23:43:17 阅读更多

别再死磕公式了！用MATLAB Bode图直观分析LCL并网变流器参数影响（附.m文件）

别再死磕公式了！用MATLAB Bode图直观分析LCL并网变流器参数影响（附.m文件）在电力电子系统设计中，LCL滤波器因其优异的谐波抑制能力而广泛应用于并网变流器。然而，面对复杂的传递函数和参数耦合关系，许多工程…

2026/6/2 23:43:17 阅读更多

从雨林到云端：无线传感器网络在极端环境监测中的工程实践

1. 项目概述：热带雨林里的“数据捕手”去年，我在一个关于环境监测技术的研讨会上，听到一个让我印象深刻的案例。它不是什么高深莫测的卫星遥感，而是一个“接地气”到极致的项目——在巴西大西洋热带雨林里，部署一个由传…

2026/6/2 23:43:17 阅读更多

C＋＋进阶 map和set的使用

一.序列式容器和关联式容器1.序列式容器概念序列式容器中的元素按照插入顺序存储。容器会记录每个元素的位置，用户可以通过下标或迭代器访问指定位置的元素。元素的位置由插入顺序决定常见序列式容器：vector动态顺序表string字符顺序表等2.关联式容器关…

2026/6/2 23:41:14 阅读更多

从Windows转投Mac？这份‘肌肉记忆’迁移指南和必备改键工具推荐

从Windows到Mac的无缝迁移：重塑高效工作流的终极指南当你第一次按下MacBook那标志性的铝制机身时，那种细腻的触感仿佛在宣告：一段全新的数字生活即将开始。但兴奋很快会被现实冲淡——为什么复制粘贴不是CtrlC？窗口关闭按钮怎么在…

2026/6/2 23:41:14 阅读更多

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地摘要 Tool Calling 是大模型系统从“会回答”走向“会执行”的关键能力。很多文章只停留在 @Tool 注解和 Hello World 级别示例，但一旦进入生产环境，问题很快从“怎么调用”升级为“怎么控延迟、怎么控风…

2026/6/2 0:01:22 阅读更多

解耦安防碎片化：基于 Docker 与边缘计算的 AI 视频中台架构设计（支持 GB28181/RTSP 与源码交付）

在智能视频分析（IVA）与产业物联网（IoT）大行其道的今天，政企级安防项目的落地依然面临着严重的碎片化挑战。对于系统集成商和独立软件开发商（ISV）而言，传统的流媒体研发存在两大核心痛…

2026/6/2 0:03:04 阅读更多

解耦品牌壁垒：基于 Docker 与边缘计算的高并发视频中台架构（支持 GB28181/RTSP 统一接入与源码交付）

在泛安防与产业物联网（IoT）工程落地中，系统集成商与技术团队往往深陷于底层流媒体对接的碎片化泥潭。一方面，前端摄像机、IPC、NVR 品牌林立（如海康、大华、宇视等），其 GB28181 国标协议的信令交…

2026/6/2 0:03:04 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/2 3:04:55 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/2 3:51:01 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/2 1:12:03 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/2 5:03:37 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/2 0:27:25 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/2 2:18:01 阅读更多

相关文章

告别时序图恐惧！用STM32CubeMX和HAL库，5分钟搞定I2C驱动24C02 EEPROM

告别调参玄学：用进化计算自动优化你的机器学习模型（附Python代码）

告别DCNv3的卡顿：实测DCNv4在InternImage模型上80%速度提升的配置与调优心得

如何永久保存微信聊天记录？这个开源工具让你轻松备份珍贵回忆

手把手教你用科大讯飞离线语音SDK，为GEC6818打造一个语音控制服务器

别再死磕公式了！用MATLAB Bode图直观分析LCL并网变流器参数影响（附.m文件）

从雨林到云端：无线传感器网络在极端环境监测中的工程实践

C＋＋进阶 map和set的使用

从Windows转投Mac？这份‘肌肉记忆’迁移指南和必备改键工具推荐

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地

解耦安防碎片化：基于 Docker 与边缘计算的 AI 视频中台架构设计（支持 GB28181/RTSP 与源码交付）

解耦品牌壁垒：基于 Docker 与边缘计算的高并发视频中台架构（支持 GB28181/RTSP 统一接入与源码交付）

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因