Almanac:基于行动层面的智能体协作心智模型标注数据集与行为预测基准 Almanac基于行动层面的智能体协作心智模型标注数据集与行为预测基准 数据集概览 (Dataset Overview)Almanac是一个专为智能体协作研究设计的行动级心智模型Action-Level Mental Model标注数据集。该数据集旨在弥合 LLM 任务完成能力与人类式协作能力Collaborative Competence之间的差距通过引入理论驱动的心智模型标注使智能体不仅能执行任务还能模拟人类在协作过程中的心理状态。数据来源基于经典的Map Task双人路由协作任务改编为文本远程协作环境。数据规模包含2,987个协作行动Collaboration Actions覆盖25个双人社团Dyadic Sessions和50名人类参与者。核心目标为智能体提供理论化的心智模型标注使其能够预测队友意图、对齐共享目标并记录自反推理Self-Reasoning。 标注框架与实验设计 (Annotation Framework)Almanac 的标注过程结合了理论化的团队协作流程、情境感知Situation Awareness、共同基础Common Ground和工作空间意识Workspace Awareness理论。标注结构每个行动在时间点ttt被时间戳标记并关联一个完整的心智模型元组mt(rt,gt,it,et,αt)m_t (r_t, g_t, i_t, e_t, \alpha_t)mt​(rt​,gt​,it​,et​,αt​)rtr_trt​自反推理Self-reasoninggtg_tgt​感知到的团队目标Perceived team goaliti_tit​感知到的队友意图Perceived partner intentete_tet​外部状态Contextual actionsαt\alpha_tαt​对齐状态Alignment status标注流程步骤方法细节说明1. 会话中检查点 (In-Session Checkpoints)实时诱饵 (Real-time elicitation)在进度达到25%、50%、75%时触发语音记录10-20秒捕捉实时团队目标、队友意图及自反推理。2. 会话后标注 (Post-Session Annotation)回溯性标注 (Retrospective labeling)利用行动轨迹、截图及记忆锚点Memory Anchors重建每个行动背后的推理逻辑包含结构化选择与自由形式理由。实验条件设置CvisibleC_{visible}Cvisible​(可见条件)引导者Guide可以看到跟随者Follower的实时画布。13个会话1,518个行动Cnot_visibleC_{not\_visible}Cnot_visible​(不可见条件)引导者仅能看到自己的地图。12个会话1,469个行动行动类型映射地图被标准化为离散网格Discrete grids行动类型包括消息Message、绘制Draw、擦除Erase、撤销Undo、重置Reset。 基准实验与结果分析 (Benchmark Experiments)基准实验包含两个互补的预测任务评估大模型模拟协作过程的能力1. 下一步行为预测 (Next Behavior Prediction)预测交互历史中下一个动作类型或消息内容。结果趋势共享组件团队目标、队友意图比私有自反推理更容易推断。在可见条件下模型通过显式的基础动作如 “Continue”、“Acknowledge”表现出更高的对齐性。2. 心智模型预测 (Mental Model Prediction)预测参与者的内部心理状态团队目标、队友意图等。角色非对称性跟随者的心智模型比引导者更容易预测因为引导者的空间规划更丰富且推理过程更具私有性。评估模型设置Prompt-based:Qwen3-35B-A3B, Llama 3.3 70B, GPT-5.5, Claude 4.6 SonnetFine-tuned:Qwen3-4B FT, Qwen3-30B-A3B FTPrompting 策略Persona-based prompting、输入 Mental Model 上下文、使用 Chain-of-Thought (CoT)指标与发现详细结果分析Mental Model Input引入理论驱动的心智模型输入后预测准确率持续提升例如在CvisibleC_{visible}Cvisible​中GPT-5.5 跟随者准确率从0.56升至0.58。Private Reasoning当前 LLM 的瓶颈私有自反推理是预测难点。大模型擅长推断公开状态但在私有推理上表现较弱。Fine-Tuning Effect微调的高效性在 Almanac 上进行微调的小型模型如Qwen3-4B FT表现出极具竞争力的性能迅速缩小了与大型专有模型的性能差距。Condition EffectsCnot_visibleC_{not\_visible}Cnot_visible​显示出更高的行为变异性而CvisibleC_{visible}Cvisible​与更高的团队对齐度和更明确的 grounding acts 相关。 核心发现 (Key Findings)心智模型提供可操作信号将理论驱动的心智模型标注加入 Prompt能够显著提升模型在协作预测中的性能超越仅依靠交互历史的预测能力。私有推理是性能瓶颈当前 LLM 在公开状态推理上表现优异但在捕捉参与者私有的、特定于参与者的自反推理Self-Reasoning时存在显著不足。行为 ≠ 心智模型成功预测可观察行为如绘制路径并不意味着成功预测内部心智状态。这凸显了对齐过程级监督Process-level Supervision的重要性。微调 Almanac 数据高度有效针对心智模型标注进行靶向监督Targeted Supervision可显著增强模型的协作相关推理能力。⚠️ 局限性与未来工作 (Limitations Future Work)回忆偏差 (Recall Bias)会话后标注可能存在合理化现象Rationalization。缓解策略使用会话中检查点作为记忆锚点。数据集规模与范围25个会话且单一任务领域限制了泛化能力。未来扩展向协作式写作、编程及现实世界领域扩展。空间表示文本格式网格可能无法完全捕捉视觉空间关系。未来探索探索多模态模型用于联合视觉-文本处理。训练基线缺乏 RLHF 基线和跨数据集比较如 CaSiNo, DealNoDeal。 核心引用与文献来源“有效的协作要求参与者在协作过程中持续保持和对其自身推理、队友意图及共享目标的心智模型。”(Effective collaboration, however, requires collaborators to continuously maintain and align mental models of their own reasoning, partners’ intentions, and shared goals.) 资源与下载链接论文标题Almanac: Action-Level Mental Model Annotations for Agent Collaboration原始 HTML:https://arxiv.org/html/2606.06388v1摘要与 PDF:https://arxiv.org/abs/2606.06388实验复现链接:https://arxiv.org/html/2606.06388v1 专家总结与评估Almanac数据集的创新之处在于将人类协作理论如共同基础理论与 LLM 行为预测相结合。它不再仅仅关注智能体“是否完成任务”而是深入评估智能体“是否理解队友”。给开发者的建议引入私有推理监督在开发多智能体系统时不仅要优化任务执行路径还应增加对“自反推理”Self-reasoning的标注与监督。利用 Almanac 进行微调若资源有限使用 Almanac 对开源模型如 Qwen、Llama进行微调是提升其协作预测能力的最高效手段之一。重视可见性条件在真实系统中确保智能体间视觉或状态的可观察性Visibility能显著降低协作的变异性并提升对齐度。