中国人民大学研究团队打造的“多模态深度研究助手“ 这项由中国人民大学高岭人工智能学院主导的研究以预印本形式发布于2026年5月论文编号为arXiv:2605.29861v1有兴趣深入了解技术细节的读者可通过该编号查询完整原文。当你向AI提问期待得到一份像咨询公司那样图文并茂的专业研究报告时你会发现大多数现有AI工具都只能给你一大段白花花的文字。图在哪里数据图表在哪里那些用来说明观点的截图和示意图在哪里更关键的是这些AI说的话到底有没有靠谱的来源这正是这项研究要解决的核心问题。研究团队提出了一套名为PTAH的多智能体系统——名字来自古埃及的创造之神工匠的守护神寓意着将散落的文字与视觉素材精心组合为完整作品。这套系统的目标只有一个从用户的一句提问出发最终生成一份可以直接在浏览器中阅读、图文交织、引用有据可查的网页版深度研究报告。与此同时研究团队还设计了一套配套的评估体系PTAHEval专门用来衡量这类多模态报告的质量填补了现有评估工具只能打分文字内容、对图片视而不见的空白。---一、为什么AI写报告这件事比你以为的要难得多当我们谈论让AI帮你查资料写报告时脑海中可能浮现的是一个超级高效的助理它能在几分钟内浏览数十个网页把关键信息提炼出来再组织成一篇条理清晰的长文。这类系统被研究者称为深度研究Deep Research区别于只回答一个具体问题的深度搜索Deep Search。深度搜索就像在图书馆查一个词条——你问珠穆朗玛峰有多高它告诉你8848.86米这个答案对不对一秒钟就能验证。而深度研究更像是写一篇综述论文没有唯一正确答案需要综合多方来源需要判断哪些信息重要、哪些相互矛盾还需要以清晰有说服力的方式呈现出来。这就带来了两个特别棘手的挑战。第一个挑战是没有标准答案。深度研究报告不像数学题对错一目了然它的质量很难用一个简单的指标衡量而一旦前期收集的信息出了问题后续所有内容都会受到污染。第二个挑战是图文配合。一份真正专业的报告从来不只是文字。它会用趋势折线图说明某项技术的发展走势用架构示意图帮读者理解复杂系统的运作原理用来自原始文献的截图作为论据支撑。然而现有的AI系统大多把图片当作写完报告后随手贴上去的装饰与文字内容的关联很松散甚至会出现配图和正文说的完全不是同一件事的情况。研究团队把这两个挑战比作深度研究面临的两道坎而PTAH的设计思路就是同时跨越这两道坎。---二、PTAH是如何工作的一个分工明确的多人协作团队理解PTAH最直观的方式是把它比作一个正在完成咨询项目的专业团队。这个团队里有项目经理、多名独立调研员、一名主笔撰稿人以及一名随时待命的质控审核员。团队的第一步工作由规划师Planner完成。规划师拿到用户的问题后不会立刻开始查资料而是先做前期探索然后产出一份详细的研究计划书。这份计划书不只是列出报告要写哪些章节还明确说明了每个章节需要配什么类型的图——是需要数据图表来展示趋势还是需要架构图来解释原理还是需要实物截图来提供佐证。这种把视觉需求写进计划书的做法是PTAH区别于大多数现有系统的重要特征之一。计划书完成后会经过审核员Verifier的第一轮检查。审核员会用两种方式来判断这份计划书够不够好一是机械式的规则检查比如格式是否正确、工具调用是否符合规范二是让另一个语言模型来判断这份计划是否真正覆盖了用户问题的方方面面各章节之间是否逻辑连贯以及计划中的视觉需求是否与对应的文字论述相匹配。如果审核不通过规划师需要修改甚至重新搜索资料后再提交。通过审核后多名调研员Researcher同时并行工作每人负责一个章节的深入调研。每位调研员搜索网页、阅读资料、整理发现产出一个结构化的研究包里面包含关键发现、支持论据、数据表格、引用来源以及给后续撰稿人的写作建议。与此同时调研员还会系统性地从访问过的网页中提取图片建立该章节专属的视觉工作记忆Visual Working Memory。这个工作记忆就像调研员随手建立的一个图片素材库但不是随意堆放每张图片都跟着自己的来源网址、所属章节、和在报告中应该扮演的角色一起被存储起来。同样这个素材库中的图片在进入下一步之前也会先经过规则筛选剔除分辨率过低、比例极端、明显无关的图片再由视觉语言模型根据规划阶段设定的图片需求进行更细致的相关性评估决定留下哪些、去掉哪些。每个调研员交出的研究包同样要经过审核员的审查——这次重点检查的是引用的URL是否真实有效数字数据是否前后一致图片与章节内容的相关性是否达标。不合格的研究包会被退回给对应的调研员要求补充或修正。---三、从素材到报告撰稿人如何编织图文交织的完整作品调研完成后撰稿人Writer拿到的是一份全局研究计划、所有章节经过审核的研究包以及各章节对应的视觉工作记忆素材库。撰稿人不是先写完所有文字再回头想这里放一张什么图好。而是采用一种声明式多模态写作的策略在写文字内容的同时就在应该出现图片的位置嵌入图片指令标签说明这个位置需要什么样的图、图片的作用是什么、应该通过什么方式获取。图片的获取有三条路径。优先考虑的是从视觉工作记忆里直接复用调研阶段已经收集并筛选过的原始网页图片因为这类图片本身来自与正文内容直接相关的来源一致性最高。如果现有素材库里没有合适的则会启动额外的图片搜索从网络检索相关图片。如果报告需要的是某种原创性的可视化内容比如根据数据绘制的趋势图或者解释某个抽象概念的示意图则可以调用代码执行工具生成图表或者调用图像生成模型来创作插图。初稿完成后PTAH并不急着交差而是启动一个叫做测试时优化Test-Time Scaling的六步精炼流程。第一步是章节精炼逐章检查文字的清晰度、证据覆盖情况和引用准确性。第二步是图片精炼对每一张图片做出保留、删除或编辑的判断需要调整的图片会执行具体的编辑指令。第三步是整体精炼从全局视角审视各章节之间的一致性以及图片与文字在整体上是否协调呼应。第四步是生成HTML文档把精炼好的报告转换成带有布局和样式设计的网页格式。第五步是HTML精炼进一步调整网页的排版细节、间距和视觉呈现。第六步是最终渲染在浏览器中生成可以直接阅读的用户端多模态报告。这六步精炼的意义不仅仅是改改错别字更关键的是确保最终呈现给用户的不只是内容正确还要在视觉上易于阅读图片放置的位置和方式真正服务于理解而不是堆砌装饰。---四、如何衡量一份图文报告到底好不好PTAHEval评估体系现有的深度研究基准测试比如DeepResearch Bench和DeepConsult主要是评估报告的文字质量——内容是否全面、分析是否深入、是否符合指令要求、文字是否流畅。这些维度对于纯文字报告完全够用但对于图文交织的多模态报告却完全无法评价图片部分的质量。PTAHEval的设计思路是在保留原有文字评估维度的基础上新增两个专门针对多模态内容的评估维度。第一个维度叫图片内容质量ICQ评估的是报告里每一张具体图片的质量。评估时将包含图片和周围文字的内容一起送入视觉语言模型进行判断。具体来说ICQ从四个角度打分图片本身是否清晰易读视觉清晰度图片的语义内容是否与周围文字一致、放置位置是否合理跨模态对齐图片是否传递了文字难以单独表达的有价值信息信息互补性图片是否为正文中的论点或结论提供了佐证证据支撑性。每个角度的评分采用1到5分的五级量表。第二个维度叫多模态呈现质量MPQ评估的是整份报告渲染成网页后读者实际看到的那个界面的质量。评估时将报告网页渲染出来截取宽1000像素、高2000像素的首屏截图送入视觉语言模型打分。MPQ同样从四个角度评估信息密度与视觉清晰度的平衡密度可读性平衡关键信息和结构要素是否通过视觉层次感得到有效突出信息显著性是否使用了表格、图标、图表、示意图等多种视觉形式辅助理解视觉编码多样性排版间距、视觉节奏、对齐方式是否降低了阅读负担视觉工效。这种把内容对不对和呈现好不好分开评估的思路让PTAHEval能够从多个维度全面衡量一份多模态报告的实际质量。---五、实验结果PTAH在各项评估中的表现研究团队在DeepResearch Bench100道博士级研究任务覆盖22个领域中英文各50道和DeepConsult102道商业咨询类问题两个基准上进行了评测与多个基线系统进行对比。参与比较的系统包括直接让语言模型生成报告不做任何搜索、三种单智能体文字搜索系统ReAct、Search-o1、WebThinker以及一种能够生成多模态内容的智能体方法LLM-I。在文字质量方面PTAH在DeepResearch Bench上的综合评分为45.16是所有参与比较的系统中最高的在分析深度和报告可读性两个维度上尤为突出。在DeepConsult上PTAH的平均分为16.18比第二名WebThinker7.35高出一倍有余在指令遵循、完整性和写作质量上的提升最为明显。在图片质量方面PTAH在ICQ的四个维度上全面领先其中跨模态对齐的得分尤其接近满分这背后有两个原因一是从真实网页提取的图片本身就与网页内容高度相关二是测试时优化机制进一步强化了图文的一致性。相比之下LLM-I的ICQ平均得分仅为1.97与PTAH的4.39相差悬殊说明没有系统性验证机制的多模态生成其图片质量远不稳定。在报告可信度方面PTAH的引用准确率达到87.53%平均每篇报告包含9.64条有效引用搜索工具调用次数12.82次也明显多于其他系统。对照组实验中发现在没有审核员模块的情况下ReAct和Search-o1等基线系统频繁生成无效甚至虚构的URL而PTAH的审核员机制有效保证了每一条引用都指向真实可访问的来源。人工评估进一步验证了自动评估的可靠性。研究团队从DeepResearch Bench中随机抽取25道题由四名标注员两名AI博士生和两名本科生以匿名对比的方式比较PTAH与基线系统的报告质量。标注员在图片内容质量上对PTAH的支持率达到88%-96%在多模态呈现质量上对PTAH的支持率达到80%-100%结果与自动评估高度吻合。此外研究团队专门围绕审核员的作用进行了消融实验。去掉审核员后100道题中有14道在规划阶段就因格式错误或工具调用失败而无法继续剩余86道中又有18道在调研阶段失败最终只有68道能完整生成报告说明审核员对整个流程的稳定性至关重要。对于成功生成的68份报告引用准确率从87.53%骤降至30.29%充分说明审核员在事实可信度方面的关键作用。测试时优化机制的效果同样经过了单独验证。去掉这个六步精炼流程后报告的综合文字得分下降3.03分ICQ平均分从4.39降至2.77MPQ平均分从3.71降至3.49。同时去掉精炼流程后报告中图片的平均数量从3.76增加到5.06但无效图片的比例也从0.12上升到0.38说明精炼流程不只是在数量上筛选图片更在质量上大幅提升了图片的可用性。用户体验评估部分研究团队让四名评估者对比PTAH和WebThinker生成的报告从可读性、易用性、信息获取效率和整体偏好四个维度做出判断。PTAH的胜出或持平率分别为88.75%、88.75%、96.25%和95.00%其中信息获取效率的高胜率说明图文穿插的呈现方式确实帮助读者更快找到和理解关键信息。针对视觉元素本身的贡献研究团队还设计了一个去图版PTAH实验使用完全相同的流程只是在最终报告中不加入任何图片。去图版PTAH的文字综合评分45.10与完整版45.16几乎相同但MPQ平均分从3.71降至3.29说明图片对文字评分几乎没有负面影响但对多模态呈现质量有实质性的提升贡献。---六、系统的时间成本与效率设计研究团队在DeepResearch Bench上对PTAH的运行效率做了细致分析。完整流程平均耗时约1015秒约17分钟其中调研阶段是最耗时的部分平均459秒因为它涉及对多个网页的开放式搜索、内容解读和图片池构建。测试时优化阶段平均243秒规划阶段192秒写作阶段121秒。多名调研员并行工作的设计带来了显著的效率提升。如果改为顺序执行调研阶段的平均耗时将从459秒膨胀到1328秒增加近三倍。并行设计在不牺牲报告质量的前提下将调研时间压缩了65%。不同强度的审核员也会影响整体速度。研究团队测试了用DeepSeek-R1替换当前审核员的效果发现规划阶段耗时从192秒增加到853秒调研阶段从459秒增加到1408秒。更强的推理模型意味着更严格的检查和更多轮的修改迭代因此在报告质量和生成速度之间存在明显的权衡关系。研究团队最终选择当前版本的审核员作为质量与效率之间的平衡配置。---说到底PTAH这项研究回答的是一个非常具体的问题当我们希望AI不只是给出一段文字答案而是真正生成一份像样的专业报告时需要在架构设计上做哪些事情。研究团队给出的答案是分阶段拆解任务让专业化的智能体各司其职把图片处理从事后装饰变成前期规划中的核心要素在每个关键环节设置审核检查点阻止错误累积传播最后通过多轮精炼把内容质量和视觉呈现质量都打磨到位。这套思路本身并不复杂但把它完整落地需要解决大量工程细节和设计取舍而实验结果表明这些努力是有实际效果的。对于普通用户来说这意味着未来借助类似系统产出的研究报告将不再是一大段孤零零的文字而是能把数据图表、示意图、实物截图和文字论述有机融合在一起每一张图都说明问题每一条引用都指向真实来源。如果你有兴趣了解PTAH背后更完整的技术细节可以通过arXiv编号2605.29861检索原论文这项工作由中国人民大学高岭人工智能学院的研究团队完成。---QAQ1PTAH系统的视觉工作记忆是什么有什么用A视觉工作记忆是PTAH在调研阶段为每个章节建立的一个图片素材库。调研员访问网页时会系统提取其中的图片经过分辨率过滤和视觉语言模型的相关性筛选后每张保留的图片都会和来源网址、所属章节、预期用途一起存储。这样做的好处是撰稿阶段可以直接复用这些来源可追溯的图片而不是临时随意搜索或生成从而保证图片与文字内容之间的高度一致性。Q2PTAHEval评估体系和现有的AI报告评估方法有什么不同A现有深度研究评估基准如DeepResearch Bench主要只评估文字内容的质量对报告中是否有图片、图片质量如何完全不考量。PTAHEval在保留文字评估的基础上新增了两个维度图片内容质量ICQ评估每张图片的清晰度、与文字的对齐度、信息互补性和证据支撑性和多模态呈现质量MPQ通过截取网页首屏截图来评估整体版面的可读性、信息显著性、视觉多样性和排版舒适度由视觉语言模型打分。Q3去掉PTAH的审核员模块会发生什么A去掉审核员后系统稳定性大幅下降。在100道测试题中有14道在规划阶段就因格式或工具调用错误而卡住无法进行剩余中又有18道在调研阶段失败最终只有68道能完整生成报告。更重要的是成功生成的68份报告的引用准确率从87.53%骤降至30.29%说明审核员不仅保证了流程稳定还是确保报告引用真实可信的关键机制。