Almanac：基于行动层面的智能体协作心智模型标注数据集与行为预测基准

发布时间：2026/6/8 1:53:42

Almanac基于行动层面的智能体协作心智模型标注数据集与行为预测基准数据集概览 (Dataset Overview)Almanac是一个专为智能体协作研究设计的行动级心智模型Action-Level Mental Model标注数据集。该数据集旨在弥合 LLM 任务完成能力与人类式协作能力Collaborative Competence之间的差距通过引入理论驱动的心智模型标注使智能体不仅能执行任务还能模拟人类在协作过程中的心理状态。数据来源基于经典的Map Task双人路由协作任务改编为文本远程协作环境。数据规模包含2,987个协作行动Collaboration Actions覆盖25个双人社团Dyadic Sessions和50名人类参与者。核心目标为智能体提供理论化的心智模型标注使其能够预测队友意图、对齐共享目标并记录自反推理Self-Reasoning。标注框架与实验设计 (Annotation Framework)Almanac 的标注过程结合了理论化的团队协作流程、情境感知Situation Awareness、共同基础Common Ground和工作空间意识Workspace Awareness理论。标注结构每个行动在时间点ttt被时间戳标记并关联一个完整的心智模型元组mt(rt,gt,it,et,αt)m_t (r_t, g_t, i_t, e_t, \alpha_t)mt(rt,gt,it,et,αt)rtr_trt自反推理Self-reasoninggtg_tgt感知到的团队目标Perceived team goaliti_tit感知到的队友意图Perceived partner intentete_tet外部状态Contextual actionsαt\alpha_tαt对齐状态Alignment status标注流程步骤方法细节说明1. 会话中检查点 (In-Session Checkpoints)实时诱饵 (Real-time elicitation)在进度达到25%、50%、75%时触发语音记录10-20秒捕捉实时团队目标、队友意图及自反推理。2. 会话后标注 (Post-Session Annotation)回溯性标注 (Retrospective labeling)利用行动轨迹、截图及记忆锚点Memory Anchors重建每个行动背后的推理逻辑包含结构化选择与自由形式理由。实验条件设置CvisibleC_{visible}Cvisible(可见条件)引导者Guide可以看到跟随者Follower的实时画布。13个会话1,518个行动Cnot_visibleC_{not\_visible}Cnot_visible(不可见条件)引导者仅能看到自己的地图。12个会话1,469个行动行动类型映射地图被标准化为离散网格Discrete grids行动类型包括消息Message、绘制Draw、擦除Erase、撤销Undo、重置Reset。基准实验与结果分析 (Benchmark Experiments)基准实验包含两个互补的预测任务评估大模型模拟协作过程的能力1. 下一步行为预测 (Next Behavior Prediction)预测交互历史中下一个动作类型或消息内容。结果趋势共享组件团队目标、队友意图比私有自反推理更容易推断。在可见条件下模型通过显式的基础动作如 “Continue”、“Acknowledge”表现出更高的对齐性。2. 心智模型预测 (Mental Model Prediction)预测参与者的内部心理状态团队目标、队友意图等。角色非对称性跟随者的心智模型比引导者更容易预测因为引导者的空间规划更丰富且推理过程更具私有性。评估模型设置Prompt-based:Qwen3-35B-A3B, Llama 3.3 70B, GPT-5.5, Claude 4.6 SonnetFine-tuned:Qwen3-4B FT, Qwen3-30B-A3B FTPrompting 策略Persona-based prompting、输入 Mental Model 上下文、使用 Chain-of-Thought (CoT)指标与发现详细结果分析Mental Model Input引入理论驱动的心智模型输入后预测准确率持续提升例如在CvisibleC_{visible}Cvisible中GPT-5.5 跟随者准确率从0.56升至0.58。Private Reasoning当前 LLM 的瓶颈私有自反推理是预测难点。大模型擅长推断公开状态但在私有推理上表现较弱。Fine-Tuning Effect微调的高效性在 Almanac 上进行微调的小型模型如Qwen3-4B FT表现出极具竞争力的性能迅速缩小了与大型专有模型的性能差距。Condition EffectsCnot_visibleC_{not\_visible}Cnot_visible显示出更高的行为变异性而CvisibleC_{visible}Cvisible与更高的团队对齐度和更明确的 grounding acts 相关。核心发现 (Key Findings)心智模型提供可操作信号将理论驱动的心智模型标注加入 Prompt能够显著提升模型在协作预测中的性能超越仅依靠交互历史的预测能力。私有推理是性能瓶颈当前 LLM 在公开状态推理上表现优异但在捕捉参与者私有的、特定于参与者的自反推理Self-Reasoning时存在显著不足。行为 ≠ 心智模型成功预测可观察行为如绘制路径并不意味着成功预测内部心智状态。这凸显了对齐过程级监督Process-level Supervision的重要性。微调 Almanac 数据高度有效针对心智模型标注进行靶向监督Targeted Supervision可显著增强模型的协作相关推理能力。⚠️ 局限性与未来工作 (Limitations Future Work)回忆偏差 (Recall Bias)会话后标注可能存在合理化现象Rationalization。缓解策略使用会话中检查点作为记忆锚点。数据集规模与范围25个会话且单一任务领域限制了泛化能力。未来扩展向协作式写作、编程及现实世界领域扩展。空间表示文本格式网格可能无法完全捕捉视觉空间关系。未来探索探索多模态模型用于联合视觉-文本处理。训练基线缺乏 RLHF 基线和跨数据集比较如 CaSiNo, DealNoDeal。核心引用与文献来源“有效的协作要求参与者在协作过程中持续保持和对其自身推理、队友意图及共享目标的心智模型。”(Effective collaboration, however, requires collaborators to continuously maintain and align mental models of their own reasoning, partners’ intentions, and shared goals.) 资源与下载链接论文标题Almanac: Action-Level Mental Model Annotations for Agent Collaboration原始 HTML:https://arxiv.org/html/2606.06388v1摘要与 PDF:https://arxiv.org/abs/2606.06388实验复现链接:https://arxiv.org/html/2606.06388v1 专家总结与评估Almanac数据集的创新之处在于将人类协作理论如共同基础理论与 LLM 行为预测相结合。它不再仅仅关注智能体“是否完成任务”而是深入评估智能体“是否理解队友”。给开发者的建议引入私有推理监督在开发多智能体系统时不仅要优化任务执行路径还应增加对“自反推理”Self-reasoning的标注与监督。利用 Almanac 进行微调若资源有限使用 Almanac 对开源模型如 Qwen、Llama进行微调是提升其协作预测能力的最高效手段之一。重视可见性条件在真实系统中确保智能体间视觉或状态的可观察性Visibility能显著降低协作的变异性并提升对齐度。

别再死记硬背了！用Python+spaCy实战依存句法分析，5分钟搞定句子结构可视化

用PythonspaCy轻松实现依存句法分析与可视化你是否曾经盯着一个复杂的长句子，试图理清各个词语之间的关系？传统语法教学总是让我们背诵各种句法规则和树状图，但实际应用中，我们需要更直观、更高效的工具。今天，我们将…

2026/6/8 1:52:01 阅读更多

别再为认证头疼了！微信小程序+ModelArts实战：IAM Token获取的3个关键细节与Scope选择

微信小程序集成ModelArts实战：IAM Token获取的三大高频踩坑点解析当你试图将微信小程序与华为云ModelArts服务对接时，获取有效的IAM Token往往是第一个拦路虎。很多开发者按照官方文档操作却依然失败，根本原因在于一些关键细节的微妙差异。本…

2026/6/8 1:51:00 阅读更多

告别IDE调试器适配噩梦：手把手教你用DAP协议统一VSCode、PyCharm和GDB

告别IDE调试器适配噩梦：手把手教你用DAP协议统一VSCode、PyCharm和GDB你是否经历过这样的场景：早上用VSCode调试前端JavaScript时配置了一堆launch.json参数，下午切到PyCharm调试Python后端又要重新理解Run/Debug Configurations，…

2026/6/8 1:49:19 阅读更多

ArcGIS Pro 3.0 实战：5分钟搞定从栅格数据中批量提取随机采样点值

ArcGIS Pro 3.0 高效采样：从栅格数据到统计分析的全流程实战在环境监测、农业遥感或生态研究中，我们常常需要从卫星影像、数字高程模型等栅格数据中提取大量采样点的数值。传统的手动采样方式不仅耗时费力，还容易引入人为误差。而借助ArcGIS …

2026/6/8 3:03:29 阅读更多

STM32CUBEMX配置USART1全流程复盘：从时钟树到串口助手，我的三个踩坑记录与解决方案

STM32CubeMX串口开发避坑指南：从时钟配置到printf重定向的实战心得第一次用STM32CubeMX配置USART1时，我天真地以为这不过是点几下鼠标的事。直到深夜三点还在和乱码的串口数据搏斗时，才明白那些教程里轻描淡写的"简单几步"背后藏着…

2026/6/8 3:02:49 阅读更多

别再每次改PID参数都重新烧录了！手把手教你用STM32F4内部Flash保存数据（附完整代码）

STM32F4实战：告别重复烧录，用内部Flash实现PID参数动态存储调试四轴飞行器PID参数的那个深夜，我盯着第37次烧录的进度条发呆——每次微调参数都要重新编译烧录，这种低效的调试方式必须改变。直到发现STM32F4内部Flash这个"非…

2026/6/8 3:02:49 阅读更多

告别丑图表！用Origin填充面积图可视化你的业务数据趋势（多指标对比实战）

商业数据可视化实战：用Origin填充面积图打造专业趋势分析图表在商业决策中，数据可视化的重要性不言而喻。当我们需要同时展示多条业务指标的趋势变化时，传统的折线图往往显得拥挤且难以辨识关键信息。Origin的填充面积图功能恰好能解决这一痛…

2026/6/8 3:02:29 阅读更多

踩坑指南：在Windows 11上用Flutter开发桌面应用，我遇到的VS2022兼容问题和解决全流程

Flutter桌面开发避坑实录：Windows 11环境下的VS2022兼容性攻坚去年夏天接手一个跨平台项目时，我毫不犹豫选择了Flutter——毕竟能用一套代码搞定移动端和桌面端谁不心动？但没想到在Windows 11上配置开发环境时，Visual Studio 2022…

2026/6/8 3:02:29 阅读更多

给网络小白讲明白：家里那根‘光猫’线，背后是OLT、ONU和ODN在怎么‘干活’？

家里那根“光猫”线背后的秘密：OLT、ONU和ODN如何让你刷剧不卡顿？每次打开手机追剧或视频通话时，你是否好奇过——为什么那根连接“光猫”的细细光纤，就能带来如此流畅的体验？这背后其实藏着一支配合默契的“光纤特工队…

2026/6/8 2:59:46 阅读更多

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现【免费下载链接】amlogic-s9xxx-armbian Supports running Armbian on Amlogic, Allwinner, and Rockchip devices. Support a311d, s922x, s905x3, s905x2, s912, s905d, s905x, …

2026/6/8 0:00:25 阅读更多

Python Scrapy 爬虫实战进阶系列（一）：轻量化数据存储 - 数据精准写入 SQLite 数据库

前言在 Python 爬虫开发领域中，Scrapy 作为高性能、高可扩展性的异步爬虫框架，是行业内采集结构化数据的首选工具。在中小型爬虫项目、本地数据采集、轻量化数据存储场景中，SQLite 无需独立服务、单文件存储、原生兼容 Python 的特性&#…

2026/6/8 0:00:45 阅读更多

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案【免费下载链接】btrfs WinBtrfs - an open-source btrfs driver for Windows 项目地址: https://gitcode.com/gh_mirrors/bt/btrfs 还在为Windows无法访问Linux Btrfs分区而烦恼吗？你是…

2026/6/8 0:03:08 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/8 0:06:11 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/8 0:06:11 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/8 0:06:11 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/7 9:41:13 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/7 9:41:15 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/7 9:41:13 阅读更多

相关文章

别再死记硬背了！用Python+spaCy实战依存句法分析，5分钟搞定句子结构可视化

别再为认证头疼了！微信小程序+ModelArts实战：IAM Token获取的3个关键细节与Scope选择

告别IDE调试器适配噩梦：手把手教你用DAP协议统一VSCode、PyCharm和GDB

ArcGIS Pro 3.0 实战：5分钟搞定从栅格数据中批量提取随机采样点值

STM32CUBEMX配置USART1全流程复盘：从时钟树到串口助手，我的三个踩坑记录与解决方案

别再每次改PID参数都重新烧录了！手把手教你用STM32F4内部Flash保存数据（附完整代码）

告别丑图表！用Origin填充面积图可视化你的业务数据趋势（多指标对比实战）

踩坑指南：在Windows 11上用Flutter开发桌面应用，我遇到的VS2022兼容问题和解决全流程

给网络小白讲明白：家里那根‘光猫’线，背后是OLT、ONU和ODN在怎么‘干活’？

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现

Python Scrapy 爬虫实战进阶系列（一）：轻量化数据存储 - 数据精准写入 SQLite 数据库

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因