揭秘ArcANE：语言角色能否在故事中真实成长？

发布时间：2026/6/9 2:01:19

ArcANE: Do Role-Playing Language Agents Stay in Character at the Right Time?论文链接https://arxiv.org/pdf/2606.05553v1作者:Woojung Song, Nalim Kim, Sangjun Song, Chaewon Heo, Jongwon Lim, Yohan Jo核心发表单位Seoul National University论文详细解读:ArcANE: Do Role-Playing Language Agents Stay in Character at the Right Time?Authors: Woojung Song, Nalim Kim, Sangjun Song, Chaewon Heo, Jongwon Lim, Yohan Jo机构: Graduate School of Data Science, Seoul National UniversityYear: 2026 |arXiv: 2606.05553二、研究背景与动机 / Background Motivation角色扮演语言智能体RPLA已成为对话 AI 的热门应用但现有评测基准将角色视为静态目标——评测角色是谁而非现在的角色如何行动。核心问题如图所示哈利·波特在第 1 册的道德立场惩罚性正义与第 5 册共情宽恕截然不同。仅仅知道哈利是正义的不足以预测他在特定叙事阶段的具体行为。现有基准的局限性仅测量特定章节的事实回溯TimeCHARA而非行为是否与角色的心理轨迹对齐未测试角色在原文未探索的情景中是否沿弧线一致行动将角色心理视为全程不变的稳定特征McAdams Layer 1而非随叙事积累演变Layer 2ArcANE 的核心假设对同一情景在故事不同阶段提问应该引发不同回答——如果模型无法做到这一点说明它只是在复述一个固定人设而非真正理解角色的演化轨迹。—|------|---------||In-Scenario| 场景直接取自原文段落 | 可从原文检索 ||In-World| 原文设定内的新场景原文未写 | 需要对原文世界的理解 ||Out-of-World| 场景被移置到非原文时代/背景 | 只能依赖角色弧线本身 |生成流程三阶段弧线前准备提取行为对比behavioral contrast、生命阶段标签life-stage tag、Out-of-World 年代无关轴探针起草设计 LLM 为每个目标阶段类别对生成探针其余 N-1 阶段作为反事实回答验证与过滤Q-Voice角色一致性、Q-PhaseFit阶段拟合、Q-Anchor/Q-World场景合规多轮验证人类标注流程图4轴评分的人类标注界面。图5LLM 评判标注界面。3.4 数据集统计 / Dataset Statistics划分小说数角色数弧线数探针数SFT 行数训练集10483082,54545,690测试集验证5252051,754—测试集低知名度未验证2731302—合计17805444,60145,6903.5 ArcANE 微调模型 / Fine-tuned Models基于 Qwen3-8B/32B 进行两阶段训练阶段一SFT训练数据45,690 行Arc 和 Summary 两种上下文模式Teacher 模型gpt-5.4-mini claude-sonnet-4-6双 teacher 降低单一偏差阶段二DPO偏好对构建以弧线锚定阶段回答为 chosen相邻阶段回答为 rejected14,671 偏好对2,516 个探针配置ArcANE-8BArcANE-32B基础模型Qwen3-8BQwen3-32B微调方式FullLoRA (r64, α128)SFT 训练时间2h 38m9h 49mDPO 训练时间3h 44m14h 3mGPU1× NVIDIA B200 (192GB)同左—|---------------|-------------|------|| DeepSeek-V4-Pro | LifeChoice: 57.7 |62.4| 4.7 || DeepSeek-V4-Flash | LifeChoice: 56.1 |59.7| 3.6 || Qwen3-32B | RAG: 47.2 |50.1| 2.9 || Qwen3-8B | RAG: 40.9 |43.1| 2.2 || ArcANE-32B | RAG: 52.0 |60.4| 8.4 || ArcANE-8B | RAG: 48.5 |56.9| 8.4 |Arc 优势随探针类别升高以 DeepSeek-V4-Pro 为例探针类别Arc vs. 最强非 Arc 优势In-Scenario0.5 ppIn-World5.2 ppOut-of-World7.7 pp这符合设计预期In-Scenario 可从原文检索RAG 已足够Out-of-World 检索无内容可找只有 Arc 能提供阶段信息。PTF轨迹指标上优势更大DeepSeek-V4-Pro Out-of-World PTFArc vs. 最强非 Arc 8.2 pp表明 Arc 不仅提升单阶段准确度更让模型沿正确方向、以正确形状移动。4.4 额外模型结果 / Additional Models图6更多角色扮演基线和 ArcANE 模型的逐类别 Arc 优势Arc 减去最强非 Arc。SFT/DPO 两阶段在每个规模旁并排显示。扩展至 HER-32B、CoSER-8B/70B 等角色扮演专用模型Arc 优势同样在 In-World 和 Out-of-World 上成立。ArcANE 模型内部DPO 阶段在 In-World 和 Out-of-World 上进一步放大优势ArcANE-32B 的 Out-of-World Arc 优势从 7.3 提升到 12.5代价是 In-Scenario 略有下降。4.5 消融实验 / Ablation StudyArc 来源效应消融图7三个模型在验证子集上的 Arc 来源效应消融。MixedArc错误角色的弧线和 ArcHint极简轴标签与完整 Arc 的性能对比。DS 指 DeepSeek。MixedArc插入同小说另一角色的弧线在 Qwen3-32B 和 ArcANE-32B 上低于 Vanilla反驳了结构化上下文加成和来源泄露两种替代解释——错误内容会主动误导训练模型ArcANE-32B Per-Phase Average 下降 4.7 分ArcHint每条轴只保留一行 Axis/Phase 标签约 40× 上下文压缩对 DeepSeek-V4-Flash 和 Qwen3-32B 跟踪 Arc 在 ±2.6 分内说明轴标签当前阶段索引已足以传递完整 Arc 优势对一般模型ArcANE-32B 只恢复一半优势说明 DPO 增益依赖完整的逐阶段散文SFT vs. DPOSFT 总体将 Arc Overall 从 50.1 提升到 58.4但 In-World/Out-of-World 的 Arc 优势仅 7.3DPO 进一步在 Out-of-World 上扩大到 12.5机制是让模型更好地沿弧线轨迹方向移动而非固守单一阶段声音。—|---------|---------|-------|-------|-------|---------|| PsychoBench | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ || InCharacter | ✓ | ✓ | ✗ | ✗ | ✗ | ✗ || TimeCHARA | ✓ | ✓ | ✓ | ✗ | ✓ |✗仅事实 || HPD | ✓ | ✓ | ✓ | ✗ | ✓ | ✓部分 ||ArcANE本文|✓|✓|✓|✓|✓|✓|核心区别ArcANE 是唯一同时支持叙事外场景时序行为变化评测的基准TimeCHARA 只测事实知识而非行为心理现有基准均将角色视为静态目标。七、总结 / Conclusion本文提出ArcANEArc-Aware Narrative Evaluation首个专门测试 RPLA 是否在正确叙事时点以正确方式行动的基准。数据集17 部小说、80 个角色、544 条 Character Arc、4,601 个探针涵盖 In-Scenario / In-World / Out-of-World 三类难度场景关键发现Arc 条件化上下文在 6 个模型上全面领先在 Out-of-World 场景检索无效优势最大证明显式心理轨迹表示是提升 RPLA 角色准确度的有效方式ArcANE 模型SFTDPO 两阶段训练进一步放大 Arc 优势DPO 特别有效于让模型沿轨迹方向移动而非固守单一阶段泛化性结论在低知名度小说排除记忆泄露、多种角色扮演专用模型上均成立核心结论角色扮演评测不应只问这个角色是谁而应问这个角色此时此刻如何行动——Character Arc 是连接两者的关键结构。原文摘要:Role-playing language agents (RPLAs) should play characters whose values and behavior evolve as the story progresses, not maintain a fixed persona. Existing benchmarks measure factual recall at a given chapter, not whether responses align with the character’s psychological trajectory, especially in scenarios the source text never explores. We introduce ArcANE (Arc-Aware Narrative Evaluation), an automatically constructed benchmark spanning 17 novels and 80 principal characters. A Character Arc segments the narrative into phases along a psychological axis, and each probe poses the same scenario across phases, spanning both situations within the source text and situations beyond it. Across six models and six context modes, conditioning on the Character Arc tops every other context strategy on every model, and the gap is largest on scenarios outside the source text where retrieval has nothing to find. We further fine-tune open-weight models on the same data to obtain ArcANE-8B/32B, which widen the Arc advantage even more on scenarios outside the source text.PDF链接:https://arxiv.org/pdf/2606.05553v1部分平台可能图片显示异常请以我的博客内容为准

年度必看！2026AI写作辅助网站榜单（覆盖 99% 论文写作需求）

本文精选13 款2026 年实测 AI 论文工具，按全流程全能型、垂直领域专精型、润色降重专家、文献管理助手四大类别排序，覆盖从选题到定稿全链路，适配本科 / 硕博 / 期刊全场景，附选型速查表与避坑指南，帮你快速找到最佳拍…

2026/6/9 1:59:58 阅读更多

充电桩投资收益测算工具开发与使用教程

一、前言随着新能源汽车普及，充电桩、储能充电站成为新能源领域常见投资与运营项目。在项目前期评估、日常运营复盘过程中，收益核算、回本周期测算、风险预判是核心工作。传统方式依靠 Excel 制表、手工套用公式计算，不仅效率低，还…

2026/6/9 1:55:55 阅读更多

团队协作中的 Git Tag 最佳实践：从入门到精通

用好 Git Tag，让你的版本管理更专业、团队协作更高效前言在日常开发中，我们经常需要标记重要的版本节点：v1.0.0 发布、hotfix 修复、里程碑达成…Git Tag 就是为此而生的工具。但很多团队对 Tag 的使用停留在表面，甚至存在误区。…

2026/6/9 1:54:34 阅读更多

嵌入式系统EFT/ESD防护：软硬件协同设计提升MCU瞬态抗扰度

1. 项目概述：为什么微控制器需要“内外兼修”的瞬态抗扰度防护？在嵌入式系统开发这条路上摸爬滚打十几年，我处理过无数起现场设备“莫名其妙”重启、数据错乱或者干脆“死机”的故障。很多时候，问题根源并非代码逻辑错误&#xff…

2026/6/9 15:39:53 阅读更多

播客批量下载器：三步实现离线收听自由

播客批量下载器：三步实现离线收听自由【免费下载链接】PodcastBulkDownloader Simple software for downloading podcasts 项目地址: https://gitcode.com/gh_mirrors/po/PodcastBulkDownloader 还在为手动下载播客节目而烦恼吗？播客批量下载器&…

2026/6/9 15:38:28 阅读更多

【轻松部署】Windows 64 位系统 OpenClaw v2.7.9 完整搭建与使用教程（包含安装包）

Windows 端 OpenClaw v2.7.9 搭建教程｜零基础快速部署 AI 自动化平台一、软件简介 OpenClaw（虾壳云）是一款适配 Windows 系统的 AI 自动化网关工具，主打可视化一键部署模式，兼容 Windows10、Windows11 64 位系统&am…

2026/6/9 15:38:08 阅读更多

OpenClaw 2.7.9 实用 Skill 技能汇总，大幅提升办公效率（包含安装包）

OpenClaw 实用 Skill 技能推荐全面提升办公效率 OpenClaw 2.7.9 的核心亮点在于丰富的 Skill 技能扩展功能。启用对应技能后，AI 不再局限于基础对话交互，还可以协助完成各类电脑实操工作。本文整理了一批高频实用、上手简单的技能，划分五大…

2026/6/9 15:38:08 阅读更多

别再截图保存了！MapChart 2.32 绘制遗传图谱的完整导出与美化攻略

MapChart 2.32 科研级遗传图谱制作与出版级导出全指南在分子生物学和遗传学研究中，清晰美观的遗传图谱往往能让论文增色不少。MapChart作为一款经典的遗传图谱绘制工具，其简单易用的特性深受科研人员喜爱。但很多用户可能不知道，这款看似基础…

2026/6/9 15:36:47 阅读更多

别再傻傻分不清！一文搞懂列车通信TCN、TSN、TRDP的区别与联系（附开源协议栈地址）

轨道交通通信协议深度解析：TCN、TSN与TRDP的技术边界与应用实践在轨道交通智能化发展的浪潮中，列车通信网络如同人体的神经系统，承载着海量数据的实时传输与处理。对于初入此领域的工程师而言，TCN、TSN和TRDP这三个专业术语往往令…

2026/6/9 15:35:04 阅读更多

5分钟上手：BilibiliDown——你的B站视频下载全能助手

5分钟上手：BilibiliDown——你的B站视频下载全能助手【免费下载链接】BilibiliDown (GUI-多平台支持) B站哔哩哔哩视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mirrors/bi…

2026/6/9 0:00:38 阅读更多

【AI】服务化部署：把AI Agent变成API服务

服务化部署：把AI Agent变成API服务📝 本章学习目标：本章聚焦安全与工程化，确保AI Agent稳定可靠运行。通过本章学习，你将全面掌握"服务化部署：把AI Agent变成API服务"这一核心主题。一、引言&…

2026/6/9 0:01:41 阅读更多

Playnite：一站式游戏库管理器，告别多平台切换烦恼

Playnite：一站式游戏库管理器，告别多平台切换烦恼【免费下载链接】Playnite Video game library manager with support for wide range of 3rd party libraries and game emulation support, providing one unified interface for your games. 项目地…

2026/6/9 0:01:41 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/9 0:23:00 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/9 0:23:12 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/9 0:15:30 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/9 9:53:26 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…