ClinEnv:面向Agent的交互式多阶段电子健康记录(EHR)环境 ClinEnv面向Agent的交互式多阶段电子健康记录EHR环境来源arXiv:2606.02568链接https://arxiv.org/html/2606.02568v1优化日期2026-06-01领域临床AI、电子健康记录EHR、大型语言模型评估、多智能体系统 概述与核心范式ClinEnv是一个交互式基准测试用于评估大语言模型LLM作为主治医生在真实住院患者 admissions 上的表现。其核心范式称为纵向住院模拟Longitudinal Inpatient Simulation, LIS。与传统的静态多项选择题基准不同ClinEnv模拟了真实临床实践中医生逐步收集异构信息在不确定性下做出顺序且不可逆的决策提交药物、程序和诊断并通过EHR时间线进行验证 核心贡献自动化案例构建将原始EHR admissions 转换为多阶段案例无需人工标注交互式多智能体环境临床信息在未请求时隐藏模型必须向四个专用智能体查询后才能提交决策双重评估框架同时评估决策准确性通过确定性本体匹配和流程质量信息覆盖率、成本效率 基准统计数据与数据源指标数值数据源MIMIC-IV v3.1 v2.2住院数3,5091,809名唯一患者决策阶段9,297真实决策26,043决策类型分解诊断71.7%案例跨距平均每案例2.65阶段49.8%为长跨距≥3阶段️ 方法论与架构管线阶段决策提取从出院记录中提取主治级决策若完整记录不可用则缝合各部分时间锚定滑动窗口智能体将每个决策定位到特定的时间线事件阶段构建与验证将时间线分段为有序阶段跳过常规药物持续诊断可判定性扫描滑动窗口扫描识别最终诊断阶段的证据支持ICD代码信息智能体由GPT-5.4-mini驱动智能体角色与视图Patient人口统计学、主诉、现病史、既往史患者语言Nurse生命体征、液体平衡、MAR、床旁观察Lab实验室/微生物学结果语义查询解析History既往出院总结纵向上下文交互模式直接模式模型接收完整阶段上下文无需查询即可提交决策交互模式从无数据开始最多60轮每轮恰好一次工具调用。结构化提交强制每种决策类型的精确计数以隔离推理与格式推断 评估框架与指标决策准确性匹配匈牙利算法针对每种决策类型诊断、药物、程序药物评分动作类型门控开始/停止/切换/调整 ATC层次部分得分诊断/程序评分层次F1HDF1基于ICD祖先集流程质量信息效率奖励精简查询惩罚冗余查询实验室成本效率将订购测试映射到CMS临床实验室费用时间表计算浪费比率药物获取成本通过RxNorm → NDC → NADAC定价 WHO ATC/DDD估计每日成本 关键公式s_{ATC} \begin{cases}1.0 \ell \geq |c^*| \\ 0.8 \ell5 \text{ (化学亚组)} \\ 0.6 \ell4 \text{ (药理类)} \\ 0.3 \ell3 \text{ (治疗组)} \\ 0.1 \ell1 \text{ (解剖组)} \\ 0.0 \text{其他}\end{cases}\text{eff} \frac{\text{cov}}{\max\left(1,\;K/|\mathcal{A}_k|\right)} 关键发现与洞察天花板低最强的模型GPT-5.4仅达到0.306 决策F1表明真实世界临床推理仍有巨大提升空间诊断 vs. 管理模型可靠恢复诊断F10.51但管理决策表现较差F10.17。瓶颈在于选择正确的药物身份而非动作类型长跨距难度性能在第一个管理阶段后急剧下降准确率在第4阶段跌至0.03以下流程-结果解耦结果质量与流程质量相互独立。GPT-5.4-nano等高效率模型实现低浪费4.1%尽管绝对准确率较低信息寻求减少浪费更高的覆盖率与更低的实验室浪费相关知道该寻找什么的模型检索相关证据并避免不必要测试信息访问非瓶颈覆盖率在后期阶段保持稳定或上升但决策准确率崩溃指向临床推理为瓶颈约束 局限性与作用范围测量与真实临床实践的一致性而非最佳护理合理替代方案可能得分不及评估仅针对住院场景不涵盖门诊或急诊成本估算基于公开定价实际医院成本可能不同 资源链接与下载资源链接arXiv论文https://arxiv.org/html/2606.02568v1GitHub如有https://github.com/…MIMIC-IV数据https://mimicih.github.io/ 实验步骤与脚本资源实验环境配置# 克隆仓库gitclone https://github.com/ClinEnv/ClinEnv.gitcdClinEnv# 创建虚拟环境conda create-nclinenvpython3.10conda activate clinenv# 安装依赖pipinstall-rrequirements.txt# 下载数据如有脚本bashscripts/download_data.sh运行评估# 运行完整评估python run_evaluation.py--modefull--outputresults/# 交互式评估python run_evaluation.py--modeinteractive --max-turns60--outputresults/interactive/# 直接模式评估python run_evaluation.py--modedirect--outputresults/direct/资源下载脚本# 下载MIMIC-IV数据bashscripts/setup_mimic.sh# 下载预训练模型与权重bashscripts/download_models.sh# 验证环境python scripts/validate_setup.py 专家总结ClinEnv 通过引入纵向住院模拟范式填补了临床推理评估领域的空白。其核心价值在于真实性基于真实住院数据涵盖药物、诊断和程序决策交互性模拟医生逐步收集信息的真实过程双重评估不仅评估决策结果还评估决策流程的效率和质量长跨距挑战揭示了模型在长期决策中的性能衰减问题该基准为评估LLM在临床环境中的表现提供了重要工具特别适用于评估模型在不确定性下做出顺序决策的能力。