本文是「AI 学习计划」系列第 28 篇模块 07 论文导读第 2 篇。GraphRAG 重新定义了怎么检索DPO 重新定义了怎么对齐。一个让模型找得到一个让模型说得好。论文 AFrom Local to Global — GraphRAGMicrosoft Research, 2024基本信息项内容标题From Local to Global: A Graph RAG Approach to Query-Focused Summarization作者Darren Edge, Ha Trinh, Newman Cheng, Joshua Bradley 等Microsoft Research发表2024.04arXiv后被多个会议引用引用2,000RAG 子领域最高引用之一链接https://arxiv.org/abs/2404.16130开源https://github.com/microsoft/graphrag一句话总结先把文档构建成知识图谱实体关系再用社区检测算法分层聚类最后用 Map-Reduce 策略回答全局性问题——解决了传统 RAG 只能回答局部问题的致命缺陷。传统 RAG 的问题在哪传统 RAGNaive RAG的流程是用户提问 → Embedding 相似度检索 → 取 Top-K 片段 → 送给 LLM 生成回答致命问题当用户问的是全局性/总结性问题时如这个数据集的主要主题是什么“请给我一个全面的分析”Embedding 检索只能找到局部片段无法覆盖全貌。实验数据在 Podcast 数据集上问请描述所有讨论的主题——Naive RAG只覆盖 20-30% 的主题GraphRAG覆盖 70-80% 的主题GraphRAG 的两阶段架构阶段一索引Indexing——构建知识图谱原始文档 ↓ (1) 文本分块 文本 Chunks ↓ (2) LLM 提取实体和关系 知识图谱 (Entity → Relation → Entity) ↓ (3) Leiden 社区检测算法 层级化社区结构 (Level 0, 1, 2...) ↓ (4) LLM 为每个社区生成摘要 社区摘要库关键步骤解读(2) 实体/关系提取用 LLMGPT-4/Claude做 few-shot 提取——输入一段文本输出(实体A, 关系, 实体B, 描述, 强度)例如(Microsoft, 发布了, GraphRAG, 2024年开源的知识图谱RAG框架, 9)(3) Leiden 算法比 Louvain 更准的社区检测算法把紧密连接的节点聚成社区形成多层级结构Level 0最细粒度几个实体一组Level 1中等粒度几十个实体Level 2最粗粒度整个主题域(4) 社区摘要每个社区用 LLM 生成一段自然语言摘要作为后续检索的索引。阶段二查询Query——Global Search vs Local SearchGlobal Search全局检索——GraphRAG 最大的贡献用户问全局问题 ↓ 取所有社区摘要选择适当 Level ↓ Map: 每个社区摘要独立回答问题输出要点列表 ↓ Reduce: 合并所有要点生成最终综合答案Local Search局部检索——增强版 Naive RAG用户问局部问题 ↓ 找到相关实体 → 取关联社区摘要 原文片段 ↓ 合并上下文 → LLM 生成回答核心实验结果指标Naive RAGGraphRAG Global提升全面性Comprehensiveness低高~3x多样性Diversity低高~2.5x赋能性Empowerment中高~2x直接性Directness高中Naive 略好结论问全面总结→ 用 GraphRAG问具体事实→ 用 Naive RAG 够了。成本与 Trade-off项说明索引成本高每个文档要调 LLM 做实体提取——约 $1-5/万 token查询延迟Global Search 较慢Map-Reduce 多轮调用适合场景大文档集的综合分析、跨文档主题发现不适合简单事实查询Naive RAG 更快更便宜2026 后续发展LightRAG简化版 GraphRAG只用两级索引速度快 3 倍nano-graphrag极简实现500 行代码Fast-GraphRAG引入 PageRank 做重要性排序腾讯 Youtu GraphRAG加入时间维度的动态图谱读论文的正确姿势先看 Figure 1Pipeline 概览图重点读 §3Indexing Pipeline 五步理解 §4.1Global Search 的 Map-Reduce看 Table 1实验对比跳过附录 A 的 prompt 模板太长需要时再查论文 BDPO — Direct Preference Optimization2023基本信息项内容标题Direct Preference Optimization: Your Language Model is Secretly a Reward Model作者Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea FinnStanford发表NeurIPS 2023引用5,000对齐领域引用最高之一链接https://arxiv.org/abs/2305.18290一句话总结绕过 RLHF 中复杂的训练奖励模型PPO 强化学习流程直接用偏好数据优化语言模型——从 4 模型方案简化为 2 模型方案训练更稳定、更简单。RLHF 的痛点DPO 要解决的问题RLHF 需要 4 个模型同时工作1. 策略模型要训练的 LLM 2. 参考模型冻结的原始 LLM用于 KL 约束 3. 奖励模型RM从偏好数据训练 4. 价值模型Value ModelPPO 的 Critic痛点训练 RM 本身就不容易需要大量高质量偏好数据PPO 超参数极度敏感学习率、KL 系数、clip range…4 个模型同时跑显存爆炸训练不稳定reward hacking 频发DPO 的核心洞察一个数学等价性DPO 发现了一个闭式映射在 KL 约束的 RLHF 目标函数中最优策略 π* 和奖励函数 r* 之间存在一一对应关系r*(x, y) β · log[π*(y|x) / π_ref(y|x)] β · log Z(x)翻译成人话奖励模型给一个回答打多少分 ≈ 策略模型生成这个回答的概率 vs 参考模型的概率之比推论既然奖励可以用策略概率直接表示那就不需要单独训练奖励模型了DPO 损失函数L_DPO(π; π_ref) -E_{(x, y_w, y_l)} [log σ(β · (log π(y_w|x)/π_ref(y_w|x) - log π(y_l|x)/π_ref(y_l|x)))]其中y_w人类偏好的好回答winnery_l人类不偏好的差回答loserβ控制对参考模型的偏离程度σsigmoid 函数直觉理解让模型给好回答的概率变高、给坏回答的概率变低同时不要偏离参考模型太远。RLHF vs DPO 对比维度RLHFDPO需要的模型数4 个2 个策略参考训练步骤先训 RM → 再 PPO一步到位超参数敏感度极高低只有 β训练稳定性差reward hacking好需要的数据偏好对 RL 采样只需偏好对理论保证近似最优精确等价于 RLHF 最优解计算成本高4 模型采样低标准 SFT 级别实验结果任务SFTRLHF (PPO)DPO摘要质量TL;DR基线好≈ PPO更稳定对话安全Anthropic HH基线好≈ PPO更简单情感控制IMDb基线好≈ PPO关键结论DPO 在效果上≈ RLHF但训练简单 10 倍。DPO 的后续发展2024-2026变体贡献IPO放松 Bradley-Terry 假设更鲁棒KTO只需要二元反馈好/坏不需要偏好对SimPO去掉参考模型只需 1 个模型ORPOSFT 对齐一步完成GRPODeepSeek组相对优化用组内竞争替代 CriticRLVR可验证奖励数学/代码可自动评分2026 产业现状Claude Opus 4.7 用 Constitutional AI 2.0RLAIF DPO 混合DeepSeek V4 用 GRPORLVRGPT-5.5 的对齐方案未公开但推测是 DPO 变体。读论文的正确姿势先看 §1 Introduction 最后一段DPO 把 RM 的闭式解代入 RL 目标重点读 §4DPO 推导过程——核心数学只有 2 页看 Figure 1RLHF vs DPO pipeline 对比图Table 1-2 实验结果§6 Discussion理解 DPO 的适用边界两篇论文的关系GraphRAG2024 DPO2023 ↓ ↓ 解决LLM 怎么找到信息 解决LLM 怎么说得像人 ↓ ↓ RAG 从文本检索进化为 对齐训练从4模型RL 知识图谱社区摘要 简化为2模型直接优化 ↓ ↓ ←←← 合在一起 →→→ ↓ 2026: 又能找到好信息又能说得好 DeepSeek V4 (GRPO) Agentic RAG 延伸阅读Microsoft GraphRAG 官方文档LightRAG 论文 — GraphRAG 的轻量替代Hugging Face Blog: DPO 实战指南GRPO: DeepSeek-R1 技术报告 §4KTO: Model Alignment as Prospect Theoretic Optimization路易乔布斯 © 2026 「AI 学习计划」系列第 28 篇 模块 07 论文导读 2/3
【系统学AI】论文导读 ②:GraphRAG 与 DPO——检索增强和对齐训练的两大突破
发布时间:2026/6/3 1:03:07
本文是「AI 学习计划」系列第 28 篇模块 07 论文导读第 2 篇。GraphRAG 重新定义了怎么检索DPO 重新定义了怎么对齐。一个让模型找得到一个让模型说得好。论文 AFrom Local to Global — GraphRAGMicrosoft Research, 2024基本信息项内容标题From Local to Global: A Graph RAG Approach to Query-Focused Summarization作者Darren Edge, Ha Trinh, Newman Cheng, Joshua Bradley 等Microsoft Research发表2024.04arXiv后被多个会议引用引用2,000RAG 子领域最高引用之一链接https://arxiv.org/abs/2404.16130开源https://github.com/microsoft/graphrag一句话总结先把文档构建成知识图谱实体关系再用社区检测算法分层聚类最后用 Map-Reduce 策略回答全局性问题——解决了传统 RAG 只能回答局部问题的致命缺陷。传统 RAG 的问题在哪传统 RAGNaive RAG的流程是用户提问 → Embedding 相似度检索 → 取 Top-K 片段 → 送给 LLM 生成回答致命问题当用户问的是全局性/总结性问题时如这个数据集的主要主题是什么“请给我一个全面的分析”Embedding 检索只能找到局部片段无法覆盖全貌。实验数据在 Podcast 数据集上问请描述所有讨论的主题——Naive RAG只覆盖 20-30% 的主题GraphRAG覆盖 70-80% 的主题GraphRAG 的两阶段架构阶段一索引Indexing——构建知识图谱原始文档 ↓ (1) 文本分块 文本 Chunks ↓ (2) LLM 提取实体和关系 知识图谱 (Entity → Relation → Entity) ↓ (3) Leiden 社区检测算法 层级化社区结构 (Level 0, 1, 2...) ↓ (4) LLM 为每个社区生成摘要 社区摘要库关键步骤解读(2) 实体/关系提取用 LLMGPT-4/Claude做 few-shot 提取——输入一段文本输出(实体A, 关系, 实体B, 描述, 强度)例如(Microsoft, 发布了, GraphRAG, 2024年开源的知识图谱RAG框架, 9)(3) Leiden 算法比 Louvain 更准的社区检测算法把紧密连接的节点聚成社区形成多层级结构Level 0最细粒度几个实体一组Level 1中等粒度几十个实体Level 2最粗粒度整个主题域(4) 社区摘要每个社区用 LLM 生成一段自然语言摘要作为后续检索的索引。阶段二查询Query——Global Search vs Local SearchGlobal Search全局检索——GraphRAG 最大的贡献用户问全局问题 ↓ 取所有社区摘要选择适当 Level ↓ Map: 每个社区摘要独立回答问题输出要点列表 ↓ Reduce: 合并所有要点生成最终综合答案Local Search局部检索——增强版 Naive RAG用户问局部问题 ↓ 找到相关实体 → 取关联社区摘要 原文片段 ↓ 合并上下文 → LLM 生成回答核心实验结果指标Naive RAGGraphRAG Global提升全面性Comprehensiveness低高~3x多样性Diversity低高~2.5x赋能性Empowerment中高~2x直接性Directness高中Naive 略好结论问全面总结→ 用 GraphRAG问具体事实→ 用 Naive RAG 够了。成本与 Trade-off项说明索引成本高每个文档要调 LLM 做实体提取——约 $1-5/万 token查询延迟Global Search 较慢Map-Reduce 多轮调用适合场景大文档集的综合分析、跨文档主题发现不适合简单事实查询Naive RAG 更快更便宜2026 后续发展LightRAG简化版 GraphRAG只用两级索引速度快 3 倍nano-graphrag极简实现500 行代码Fast-GraphRAG引入 PageRank 做重要性排序腾讯 Youtu GraphRAG加入时间维度的动态图谱读论文的正确姿势先看 Figure 1Pipeline 概览图重点读 §3Indexing Pipeline 五步理解 §4.1Global Search 的 Map-Reduce看 Table 1实验对比跳过附录 A 的 prompt 模板太长需要时再查论文 BDPO — Direct Preference Optimization2023基本信息项内容标题Direct Preference Optimization: Your Language Model is Secretly a Reward Model作者Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea FinnStanford发表NeurIPS 2023引用5,000对齐领域引用最高之一链接https://arxiv.org/abs/2305.18290一句话总结绕过 RLHF 中复杂的训练奖励模型PPO 强化学习流程直接用偏好数据优化语言模型——从 4 模型方案简化为 2 模型方案训练更稳定、更简单。RLHF 的痛点DPO 要解决的问题RLHF 需要 4 个模型同时工作1. 策略模型要训练的 LLM 2. 参考模型冻结的原始 LLM用于 KL 约束 3. 奖励模型RM从偏好数据训练 4. 价值模型Value ModelPPO 的 Critic痛点训练 RM 本身就不容易需要大量高质量偏好数据PPO 超参数极度敏感学习率、KL 系数、clip range…4 个模型同时跑显存爆炸训练不稳定reward hacking 频发DPO 的核心洞察一个数学等价性DPO 发现了一个闭式映射在 KL 约束的 RLHF 目标函数中最优策略 π* 和奖励函数 r* 之间存在一一对应关系r*(x, y) β · log[π*(y|x) / π_ref(y|x)] β · log Z(x)翻译成人话奖励模型给一个回答打多少分 ≈ 策略模型生成这个回答的概率 vs 参考模型的概率之比推论既然奖励可以用策略概率直接表示那就不需要单独训练奖励模型了DPO 损失函数L_DPO(π; π_ref) -E_{(x, y_w, y_l)} [log σ(β · (log π(y_w|x)/π_ref(y_w|x) - log π(y_l|x)/π_ref(y_l|x)))]其中y_w人类偏好的好回答winnery_l人类不偏好的差回答loserβ控制对参考模型的偏离程度σsigmoid 函数直觉理解让模型给好回答的概率变高、给坏回答的概率变低同时不要偏离参考模型太远。RLHF vs DPO 对比维度RLHFDPO需要的模型数4 个2 个策略参考训练步骤先训 RM → 再 PPO一步到位超参数敏感度极高低只有 β训练稳定性差reward hacking好需要的数据偏好对 RL 采样只需偏好对理论保证近似最优精确等价于 RLHF 最优解计算成本高4 模型采样低标准 SFT 级别实验结果任务SFTRLHF (PPO)DPO摘要质量TL;DR基线好≈ PPO更稳定对话安全Anthropic HH基线好≈ PPO更简单情感控制IMDb基线好≈ PPO关键结论DPO 在效果上≈ RLHF但训练简单 10 倍。DPO 的后续发展2024-2026变体贡献IPO放松 Bradley-Terry 假设更鲁棒KTO只需要二元反馈好/坏不需要偏好对SimPO去掉参考模型只需 1 个模型ORPOSFT 对齐一步完成GRPODeepSeek组相对优化用组内竞争替代 CriticRLVR可验证奖励数学/代码可自动评分2026 产业现状Claude Opus 4.7 用 Constitutional AI 2.0RLAIF DPO 混合DeepSeek V4 用 GRPORLVRGPT-5.5 的对齐方案未公开但推测是 DPO 变体。读论文的正确姿势先看 §1 Introduction 最后一段DPO 把 RM 的闭式解代入 RL 目标重点读 §4DPO 推导过程——核心数学只有 2 页看 Figure 1RLHF vs DPO pipeline 对比图Table 1-2 实验结果§6 Discussion理解 DPO 的适用边界两篇论文的关系GraphRAG2024 DPO2023 ↓ ↓ 解决LLM 怎么找到信息 解决LLM 怎么说得像人 ↓ ↓ RAG 从文本检索进化为 对齐训练从4模型RL 知识图谱社区摘要 简化为2模型直接优化 ↓ ↓ ←←← 合在一起 →→→ ↓ 2026: 又能找到好信息又能说得好 DeepSeek V4 (GRPO) Agentic RAG 延伸阅读Microsoft GraphRAG 官方文档LightRAG 论文 — GraphRAG 的轻量替代Hugging Face Blog: DPO 实战指南GRPO: DeepSeek-R1 技术报告 §4KTO: Model Alignment as Prospect Theoretic Optimization路易乔布斯 © 2026 「AI 学习计划」系列第 28 篇 模块 07 论文导读 2/3