81k Star! RAGFlow:开源RAG引擎,深度文档理解+Agent编排 做 RAG 应用最头疼的是什么不是向量数据库不是 LLM 选型而是文档解析。PDF 里的表格丢了、图片里的内容完全忽略、扫描件直接报废——这些都是现有 RAG 方案的通病。解析质量上不去检索再准也没用。RAGFlow 就是盯准这个问题做的——基于深度文档理解Deep Document Understanding的 RAG 引擎不只是「把文档切块丢向量库」而是真正理解文档结构再结合 Agent 能力做上下文层。81k Star增速稳定已经是开源 RAG 方向的主流选择。核心数据• ⭐ GitHub Star81.4k• 支持格式PDF、DOCX、Excel、PPT、Markdown、网页、图片OCR• 核心能力深度文档理解DeepDoc RAG Agent编排• 内置 Agent 工作流 MCP 支持• 完整 Docker 部署方案• ☁️ 云服务https://cloud.ragflow.io• 开源协议Apache 2.0• 最新支持DeepSeek v4、Gemini 3 Pro、GPT-5 系列核心功能1. 深度文档理解DeepDoc这是 RAGFlow 和其他 RAG 框架最大的区别。普通 RAGPDF → 文本提取 → 切块 → 向量化表格、图片、排版全部丢失RAGFlowPDF →结构识别表格、标题层级、图片位置→ 语义切块 → 向量化 结构化索引# RAGFlow 的文档解析示例概念性# 上传一份 50 页的 PDF 财报# - 表格被完整识别为结构化数据# - 图片中的文字通过 OCR 多模态模型理解# - 标题层级保留切块时不会把章节切断实测效果同样一份复杂 PDFRAGFlow 的回答准确率明显高于直接用 LangChain 的 PDF Loader。2. 可视化 Agent 工作流RAGFlow 不只是 RAG 引擎还内置了 Agent 编排能力2025-08 支持。可以在界面上拖拽编排 Agent 工作流查询理解 → 多路召回 → 重排序 → LLM 生成 → 结果校验全流程可视化。3. MCP 支持RAGFlow 支持作为 MCP Server 运行你的数据集可以直接被 Claude Desktop、Cursor 等 MCP 客户端调用。还有官方 RAGFlow Skill for OpenClaw在 OpenClaw 里一键接入 RAGFlow 数据集。4. 多源数据同步支持从 Confluence、S3、Notion、Discord、Google Drive 同步数据2025-11 支持企业知识库场景直接覆盖。5. 多种文档解析方法支持 MinerU 和 Docling 作为文档解析后端2025-10 支持可以根据文档类型选择最合适的解析策略。部署教程方式一Docker 一键启动推荐# 克隆仓库cd# 启动CPU版本docker# 访问 http://localhost:80完整配置在docker-compose.yml包含• RAGFlow 主服务• Elasticsearch向量存储 全文检索• MySQL元数据存储• Redis缓存方式二GPU 版本推荐生产# 使用带 GPU 支持的镜像cddockerdockerGPU 版本在嵌入模型推理和文档解析上速度提升显著生产环境建议上 GPU。方式三从源码启动开发gitgitcd# 安装依赖pip# 启动服务python提示首次启动会自动下载嵌入模型和 LLM 配置确保网络通畅。国内用户建议提前配置 HuggingFace 镜像源。配置 LLM启动后进入设置配置你使用的 LLM支持 OpenAI、DeepSeek、Gemini、本地 Ollama 等# conf/ragflow.cfg 示例实战场景场景1企业知识库问答上传公司所有技术文档、API 文档、历史工单RAGFlow 解析后构建知识库。员工提问时回答能精确引用原文表格和数据。场景2法律/金融文档分析法律合同、财报通常格式复杂普通 RAG 解析效果差。RAGFlow 的深度文档理解能保留表格结构和条款层级分析质量明显更高。场景3多模态文档问答PDF 里既有文字又有图片如技术手册、论文RAGFlow 可以用多模态模型理解图片内容问答时覆盖图文信息。横向对比| 特性 | RAGFlow | Dify | LangChain | Haystack ||------|---------|------|-----------|----------|| 深度文档解析 | ✅ 核心能力 | ⚠️ 基础 | ⚠️ 需自行集成 | ⚠️ 需自行集成 || 复杂表格识别 | ✅ 内置 | ❌ 不支持 | ❌ 不支持 | ⚠️ 有限 || 图片OCR理解 | ✅ 多模态 | ⚠️ 基础 | ❌ 不支持 | ❌ 不支持 || Agent工作流 | ✅ 可视化 | ✅ 可视化 | ⚠️ 代码编排 | ⚠️ 代码编排 || MCP支持 | ✅ 内置 | ❌ 不支持 | ❌ 不支持 | ❌ 不支持 || 多源数据同步 | ✅ 内置 | ⚠️ 有限 | ⚠️ 需自行开发 | ⚠️ 需自行开发 || Docker部署 | ✅ 完整方案 | ✅ 完整方案 | ⚠️ 需自行搭建 | ⚠️ 需自行搭建 || 开源 | ✅ Apache 2.0 | ✅ Apache 2.0 | ✅ MIT | ✅ Apache 2.0 |ℹ️信息RAGFlow 的核心差异化是文档解析质量。如果你的 RAG 场景里文档格式复杂PDF财报、法律合同、技术手册RAGFlow 比其他方案效果好很多。如果文档都是纯文本/Mardown差异不大。踩坑提示Elasticsearch 需要分配足够内存默认配置需要 4GB 内存内存不够会 OOM建议修改ESJAVAOPTS调低首次启动下载模型慢嵌入模型从 HuggingFace 下载国内网络建议提前手动下载放到models/目录GPU 镜像体积大ragflow:gpu镜像约 15GB确保磁盘空间充足多模态理解需要配置视觉模型默认只配了文本 LLM图片理解需要额外配置 GPT-4V / Gemini Vision / 本地多模态模型Confluence/S3 同步需要配置凭证在「数据源」设置里填对应的 Access Key总结RAGFlow 的核心价值一句话把 RAG 里最难的「文档解析」这件事做到了开源第一梯队。深度文档理解 Agent 工作流 MCP 支持这三个能力组合起来让它不只是个 RAG 框架而是一个完整的 AI 知识层解决方案。81k StarApache 2.0 协议Docker 完整部署方案生产可用。如果你的 RAG 应用对文档解析质量有要求RAGFlow 是目前开源里最值得试的那个。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】