81k Star! RAGFlow：开源RAG引擎，深度文档理解+Agent编排

发布时间：2026/5/31 22:03:36

做 RAG 应用最头疼的是什么不是向量数据库不是 LLM 选型而是文档解析。PDF 里的表格丢了、图片里的内容完全忽略、扫描件直接报废——这些都是现有 RAG 方案的通病。解析质量上不去检索再准也没用。RAGFlow 就是盯准这个问题做的——基于深度文档理解Deep Document Understanding的 RAG 引擎不只是「把文档切块丢向量库」而是真正理解文档结构再结合 Agent 能力做上下文层。81k Star增速稳定已经是开源 RAG 方向的主流选择。核心数据• ⭐ GitHub Star81.4k• 支持格式PDF、DOCX、Excel、PPT、Markdown、网页、图片OCR• 核心能力深度文档理解DeepDoc RAG Agent编排• 内置 Agent 工作流 MCP 支持• 完整 Docker 部署方案• ☁️ 云服务https://cloud.ragflow.io• 开源协议Apache 2.0• 最新支持DeepSeek v4、Gemini 3 Pro、GPT-5 系列核心功能1. 深度文档理解DeepDoc这是 RAGFlow 和其他 RAG 框架最大的区别。普通 RAGPDF → 文本提取 → 切块 → 向量化表格、图片、排版全部丢失RAGFlowPDF →结构识别表格、标题层级、图片位置→ 语义切块 → 向量化结构化索引# RAGFlow 的文档解析示例概念性# 上传一份 50 页的 PDF 财报# - 表格被完整识别为结构化数据# - 图片中的文字通过 OCR 多模态模型理解# - 标题层级保留切块时不会把章节切断实测效果同样一份复杂 PDFRAGFlow 的回答准确率明显高于直接用 LangChain 的 PDF Loader。2. 可视化 Agent 工作流RAGFlow 不只是 RAG 引擎还内置了 Agent 编排能力2025-08 支持。可以在界面上拖拽编排 Agent 工作流查询理解 → 多路召回 → 重排序 → LLM 生成 → 结果校验全流程可视化。3. MCP 支持RAGFlow 支持作为 MCP Server 运行你的数据集可以直接被 Claude Desktop、Cursor 等 MCP 客户端调用。还有官方 RAGFlow Skill for OpenClaw在 OpenClaw 里一键接入 RAGFlow 数据集。4. 多源数据同步支持从 Confluence、S3、Notion、Discord、Google Drive 同步数据2025-11 支持企业知识库场景直接覆盖。5. 多种文档解析方法支持 MinerU 和 Docling 作为文档解析后端2025-10 支持可以根据文档类型选择最合适的解析策略。部署教程方式一Docker 一键启动推荐# 克隆仓库cd# 启动CPU版本docker# 访问 http://localhost:80完整配置在docker-compose.yml包含• RAGFlow 主服务• Elasticsearch向量存储全文检索• MySQL元数据存储• Redis缓存方式二GPU 版本推荐生产# 使用带 GPU 支持的镜像cddockerdockerGPU 版本在嵌入模型推理和文档解析上速度提升显著生产环境建议上 GPU。方式三从源码启动开发gitgitcd# 安装依赖pip# 启动服务python提示首次启动会自动下载嵌入模型和 LLM 配置确保网络通畅。国内用户建议提前配置 HuggingFace 镜像源。配置 LLM启动后进入设置配置你使用的 LLM支持 OpenAI、DeepSeek、Gemini、本地 Ollama 等# conf/ragflow.cfg 示例实战场景场景1企业知识库问答上传公司所有技术文档、API 文档、历史工单RAGFlow 解析后构建知识库。员工提问时回答能精确引用原文表格和数据。场景2法律/金融文档分析法律合同、财报通常格式复杂普通 RAG 解析效果差。RAGFlow 的深度文档理解能保留表格结构和条款层级分析质量明显更高。场景3多模态文档问答PDF 里既有文字又有图片如技术手册、论文RAGFlow 可以用多模态模型理解图片内容问答时覆盖图文信息。横向对比| 特性 | RAGFlow | Dify | LangChain | Haystack ||------|---------|------|-----------|----------|| 深度文档解析 | ✅ 核心能力 | ⚠️ 基础 | ⚠️ 需自行集成 | ⚠️ 需自行集成 || 复杂表格识别 | ✅ 内置 | ❌ 不支持 | ❌ 不支持 | ⚠️ 有限 || 图片OCR理解 | ✅ 多模态 | ⚠️ 基础 | ❌ 不支持 | ❌ 不支持 || Agent工作流 | ✅ 可视化 | ✅ 可视化 | ⚠️ 代码编排 | ⚠️ 代码编排 || MCP支持 | ✅ 内置 | ❌ 不支持 | ❌ 不支持 | ❌ 不支持 || 多源数据同步 | ✅ 内置 | ⚠️ 有限 | ⚠️ 需自行开发 | ⚠️ 需自行开发 || Docker部署 | ✅ 完整方案 | ✅ 完整方案 | ⚠️ 需自行搭建 | ⚠️ 需自行搭建 || 开源 | ✅ Apache 2.0 | ✅ Apache 2.0 | ✅ MIT | ✅ Apache 2.0 |ℹ️信息RAGFlow 的核心差异化是文档解析质量。如果你的 RAG 场景里文档格式复杂PDF财报、法律合同、技术手册RAGFlow 比其他方案效果好很多。如果文档都是纯文本/Mardown差异不大。踩坑提示Elasticsearch 需要分配足够内存默认配置需要 4GB 内存内存不够会 OOM建议修改ESJAVAOPTS调低首次启动下载模型慢嵌入模型从 HuggingFace 下载国内网络建议提前手动下载放到models/目录GPU 镜像体积大ragflow:gpu镜像约 15GB确保磁盘空间充足多模态理解需要配置视觉模型默认只配了文本 LLM图片理解需要额外配置 GPT-4V / Gemini Vision / 本地多模态模型Confluence/S3 同步需要配置凭证在「数据源」设置里填对应的 Access Key总结RAGFlow 的核心价值一句话把 RAG 里最难的「文档解析」这件事做到了开源第一梯队。深度文档理解 Agent 工作流 MCP 支持这三个能力组合起来让它不只是个 RAG 框架而是一个完整的 AI 知识层解决方案。81k StarApache 2.0 协议Docker 完整部署方案生产可用。如果你的 RAG 应用对文档解析质量有要求RAGFlow 是目前开源里最值得试的那个。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

用NEAT-Python教AI玩XOR游戏：从零开始手把手配置你的第一个神经进化项目

用NEAT-Python教AI玩XOR游戏：从零开始手把手配置你的第一个神经进化项目在人工智能的奇妙世界里，神经进化算法正以其独特的魅力吸引着越来越多的探索者。想象一下，你正在玩一个解谜游戏，但这次你的对手不是电脑，而是你…

2026/5/31 22:03:36 阅读更多

Adobe GenP 3.0 终极指南：一键破解Adobe全家桶的完整教程

Adobe GenP 3.0 终极指南：一键破解Adobe全家桶的完整教程【免费下载链接】Adobe-GenP Adobe CC 2019/2020/2021/2022/2023 GenP Universal Patch 3.0 项目地址: https://gitcode.com/gh_mirrors/ad/Adobe-GenP 还在为Adobe Creative Cloud的高昂订阅费用发愁…

2026/5/31 22:02:14 阅读更多

AI服务退款新规落地首周深度复盘（Gemini退款成功率下降18%？真相在这里）

更多请点击： https://intelliparadigm.com 第一章：AI服务退款新规落地首周深度复盘（Gemini退款成功率下降18%？真相在这里） 新规实施首周，多家主流AI服务商同步启用《人工智能生成内容服务退费管理指引&…

2026/5/31 22:01:31 阅读更多

通达信缠论分析插件：从复杂理论到直观可视化的技术桥梁

通达信缠论分析插件：从复杂理论到直观可视化的技术桥梁【免费下载链接】Indicator 通达信缠论可视化分析插件项目地址: https://gitcode.com/gh_mirrors/ind/Indicator 缠论作为技术分析领域的重要理论体系，以其严谨的逻辑结构和独特的市场解读…

2026/5/31 22:54:18 阅读更多

Linux文件‘捉迷藏’实战：5分钟掌握find与grep的日常高效用法（附场景案例）

Linux文件‘捉迷藏’实战：5分钟掌握find与grep的日常高效用法（附场景案例）刚接手新服务器时，面对/var/log里上百个日志文件，你是否曾为找一个错误信息抓狂？或是修改完nginx.conf后，却忘记它藏在…

2026/5/31 22:53:17 阅读更多

Win-PS2EXE：3步快速将PowerShell脚本编译成EXE的终极图形化工具

Win-PS2EXE：3步快速将PowerShell脚本编译成EXE的终极图形化工具【免费下载链接】Win-PS2EXE Graphical frontend to PS1-to-EXE-compiler PS2EXE.ps1 项目地址: https://gitcode.com/gh_mirrors/wi/Win-PS2EXE 还在为复杂的PowerShell脚本编译而烦恼吗&…

2026/5/31 22:51:16 阅读更多

Flink编程模型与API（一）

针对Flink的编程模型与API进行讲解，主要基于DataStream API 进行编程，学习Flink编程方式，处理数据流程以及转换处理，本章节中涉及到的代码实现使用Java和Scala两种语言来实现。Flink APIStateful Stream Processing 底层的状态流处…

2026/5/31 22:49:14 阅读更多

企业级Gemini生物识别集成成熟度评估矩阵（含12项等保2.0/GB/T 35273-2020对标项），仅开放前200份下载权限

更多请点击： https://kaifayun.com 第一章：企业级Gemini生物识别集成成熟度评估矩阵概览企业级Gemini生物识别集成成熟度评估矩阵（Enterprise Gemini Biometric Integration Maturity Assessment Matrix，简称EG-BIMA&#xff09…

2026/5/31 22:48:53 阅读更多

如何快速实现人体姿态搜索：免费开源工具完整指南

如何快速实现人体姿态搜索：免费开源工具完整指南【免费下载链接】pose-search x6ud.github.io/pose-search 项目地址: https://gitcode.com/gh_mirrors/po/pose-search 你是否曾经想过在海量图片中快速找到特定的人体动作？或者需要实时识别视频中…

2026/5/31 22:42:47 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/5/31 0:02:08 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/5/31 0:02:08 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/5/31 0:03:49 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

2026/5/31 0:02:08 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

2026/5/31 0:02:08 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

2026/5/31 0:03:49 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/30 3:46:38 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/30 3:48:20 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/30 22:39:05 阅读更多

相关文章

用NEAT-Python教AI玩XOR游戏：从零开始手把手配置你的第一个神经进化项目

Adobe GenP 3.0 终极指南：一键破解Adobe全家桶的完整教程

AI服务退款新规落地首周深度复盘（Gemini退款成功率下降18%？真相在这里）

通达信缠论分析插件：从复杂理论到直观可视化的技术桥梁

Linux文件‘捉迷藏’实战：5分钟掌握find与grep的日常高效用法（附场景案例）

Win-PS2EXE：3步快速将PowerShell脚本编译成EXE的终极图形化工具

Flink编程模型与API（一）

企业级Gemini生物识别集成成熟度评估矩阵（含12项等保2.0/GB/T 35273-2020对标项），仅开放前200份下载权限

如何快速实现人体姿态搜索：免费开源工具完整指南

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥