如何利用 AI 准确提取复杂文档中的结构化数据这篇文章分享了如何用 AI 搞定那些排版超级复杂的文档数据提取。通常大家都是先解析文档再提取但遇到表格嵌套、跨页或者扫描件时这种“两步走”的方法很容易丢信息。作者设计了一个“视觉提取器”把解析和提取合成一步走让 AI 在提取前先“脑补”一下文档布局。文章还介绍了如何自动生成 Schema、做信心打分以及引入人工校验非常适合正在解决复杂表单、工程图纸数据化问题的开发者。1 复杂文档提取的挑战与新思路1.1 传统“两步走”管道的局限性在企业应用中利用大语言模型LLM进行结构化数据提取的需求日益增长。典型的流程通常由两个阶段组成文档解析和符合 Schema 的提取。然而大多数商业文档包含复杂的布局例如多级表格标题、合并单元格、跨页行、侧边注释、图表和印章。简单的解析器往往无法准确保留这些视觉线索。如果解析器将文档压平为纯文本下游的提取器可能会产生错误的输出。解析器在不了解提取器具体需求的情况下就先决定了如何表示文档这种脱节会导致严重的上下文丢失。1.2 视觉提取器解析与提取的融合为了解决这个问题我设计了一个“视觉提取器”。它将解析和结构化提取合并到同一个 LLM 调用中。通过专门的提示词调用模型对提取目标进行空间推理并结合 Schema 生成和验证机制。这种方法的优势显而易见更高的准确度模型在阅读文档时已经带着提取任务能够同时推理布局和目标。更少的调用次数合并步骤降低了延迟和成本。降低错误风险避免了因有损解析导致的提取误导。2 核心组件设计Prompt 与 Schema2.1 引入空间推理的系统提示词在视觉提取器中我要求模型内部进行布局分析而不是直接输出解析后的内容。模型会将每个布局元素识别为包裹在带有data-bbox边界框和data-label类别标签的div标签中。OPENAI_SYSTEM_PROMPT 你是一个文档解析器和数据提取器。 准则 - 保留文档结构包括标题、段落、列表和表格。 - 将表格转换为 HTML 格式。 - 在提取之前内部通过识别每个布局元素来进行文档分析就像将其包裹在带有边界框和类别标签的 div 标签中一样。 - 仅提取文档中明确说明的信息严禁伪造数据。这种内部推理过程让模型能够利用视觉结构、表格对齐、行边界和页眉来决定哪些值属于哪些字段。2.2 自动 Schema 解析与验证视觉提取器不需要用户手动编写 Pydantic Schema。它调用 GAIK 的SchemaGenerator根据自然语言需求自动生成 Schema。它会将任务分为三种结构Flat扁平每个字段仅出现一次如订房确认单。Nested list嵌套列表输出是一行行的数据如测试结果列表。Parent with nested list父级带嵌套列表包含顶层字段和重复行如送货清单。3 信心评分与人机协作Human-in-the-Loop3.1 字段级信心元数据结构化提取并不总是意味着完全自主。在许多工作流中最佳设计是让系统自动处理常规情况并将不确定的情况交给人工。视觉提取器通过include_verificationTrue支持这一功能。启用后每个字段都会包含value、confidence_score信心分数和confidence_reason信心理由。3.2 信心评分规则为了使评分可解释我定义了明确的规则0.95–1.00确定。值在文档中明确且无歧义。0.80–0.94高。有强力支持但需要微调如格式化。0.60–0.79中等。需要非平凡的推理或跨节引用。 0.50低。证据不足或存在解析不确定性。这种元数据让审核员无需重新阅读整份文档只需优先检查低信心分数的字段。4 实战案例建筑蓝图与复杂采购订单4.1 建筑蓝图提取建筑蓝图通常包含极其复杂的视觉布局。通过视觉提取器我们可以准确提取项目地址、图纸编号、比例尺等关键字段。即使是gpt-4o-mini这样的小型模型在低推理努力下也能表现出色准确识别出 section A 中的墙体标高等细节。4.2 跨页表格的采购订单PO另一个挑战是表格跨页。视觉提取器通过merge_tableTrue指令让模型在内部推理时自动合并跨页的行。模型不仅提取了基础数据还通过视觉分析关联了不同页面上的物料编号和描述。5 总结与使用建议对于布局复杂的文档如带有合并单元格的跨页文档、扫描件、技术图纸或需要结合图表与脚注阅读的文档建议使用单通视觉提取方案。实践建议从小模型开始像gpt-4o-mini这样的模型在低推理努力下已经能解决大部分问题。按需升级如果遇到极度复杂的排版或极高的精度要求再考虑升级到gpt-4o或claude-3-5-sonnet并提高推理等级。保持透明显式定义因果图和提取逻辑让 AI 的推理过程可追踪、可审计。参考文献GAIK Project GitHub RepositoryOpen-source generative AI toolkit - Vision ExtractorLlamaParse Multimodal Parsing Study.Pydantic Documentation.
如何利用 AI 准确提取复杂文档中的结构化数据
发布时间:2026/5/30 18:30:21
如何利用 AI 准确提取复杂文档中的结构化数据这篇文章分享了如何用 AI 搞定那些排版超级复杂的文档数据提取。通常大家都是先解析文档再提取但遇到表格嵌套、跨页或者扫描件时这种“两步走”的方法很容易丢信息。作者设计了一个“视觉提取器”把解析和提取合成一步走让 AI 在提取前先“脑补”一下文档布局。文章还介绍了如何自动生成 Schema、做信心打分以及引入人工校验非常适合正在解决复杂表单、工程图纸数据化问题的开发者。1 复杂文档提取的挑战与新思路1.1 传统“两步走”管道的局限性在企业应用中利用大语言模型LLM进行结构化数据提取的需求日益增长。典型的流程通常由两个阶段组成文档解析和符合 Schema 的提取。然而大多数商业文档包含复杂的布局例如多级表格标题、合并单元格、跨页行、侧边注释、图表和印章。简单的解析器往往无法准确保留这些视觉线索。如果解析器将文档压平为纯文本下游的提取器可能会产生错误的输出。解析器在不了解提取器具体需求的情况下就先决定了如何表示文档这种脱节会导致严重的上下文丢失。1.2 视觉提取器解析与提取的融合为了解决这个问题我设计了一个“视觉提取器”。它将解析和结构化提取合并到同一个 LLM 调用中。通过专门的提示词调用模型对提取目标进行空间推理并结合 Schema 生成和验证机制。这种方法的优势显而易见更高的准确度模型在阅读文档时已经带着提取任务能够同时推理布局和目标。更少的调用次数合并步骤降低了延迟和成本。降低错误风险避免了因有损解析导致的提取误导。2 核心组件设计Prompt 与 Schema2.1 引入空间推理的系统提示词在视觉提取器中我要求模型内部进行布局分析而不是直接输出解析后的内容。模型会将每个布局元素识别为包裹在带有data-bbox边界框和data-label类别标签的div标签中。OPENAI_SYSTEM_PROMPT 你是一个文档解析器和数据提取器。 准则 - 保留文档结构包括标题、段落、列表和表格。 - 将表格转换为 HTML 格式。 - 在提取之前内部通过识别每个布局元素来进行文档分析就像将其包裹在带有边界框和类别标签的 div 标签中一样。 - 仅提取文档中明确说明的信息严禁伪造数据。这种内部推理过程让模型能够利用视觉结构、表格对齐、行边界和页眉来决定哪些值属于哪些字段。2.2 自动 Schema 解析与验证视觉提取器不需要用户手动编写 Pydantic Schema。它调用 GAIK 的SchemaGenerator根据自然语言需求自动生成 Schema。它会将任务分为三种结构Flat扁平每个字段仅出现一次如订房确认单。Nested list嵌套列表输出是一行行的数据如测试结果列表。Parent with nested list父级带嵌套列表包含顶层字段和重复行如送货清单。3 信心评分与人机协作Human-in-the-Loop3.1 字段级信心元数据结构化提取并不总是意味着完全自主。在许多工作流中最佳设计是让系统自动处理常规情况并将不确定的情况交给人工。视觉提取器通过include_verificationTrue支持这一功能。启用后每个字段都会包含value、confidence_score信心分数和confidence_reason信心理由。3.2 信心评分规则为了使评分可解释我定义了明确的规则0.95–1.00确定。值在文档中明确且无歧义。0.80–0.94高。有强力支持但需要微调如格式化。0.60–0.79中等。需要非平凡的推理或跨节引用。 0.50低。证据不足或存在解析不确定性。这种元数据让审核员无需重新阅读整份文档只需优先检查低信心分数的字段。4 实战案例建筑蓝图与复杂采购订单4.1 建筑蓝图提取建筑蓝图通常包含极其复杂的视觉布局。通过视觉提取器我们可以准确提取项目地址、图纸编号、比例尺等关键字段。即使是gpt-4o-mini这样的小型模型在低推理努力下也能表现出色准确识别出 section A 中的墙体标高等细节。4.2 跨页表格的采购订单PO另一个挑战是表格跨页。视觉提取器通过merge_tableTrue指令让模型在内部推理时自动合并跨页的行。模型不仅提取了基础数据还通过视觉分析关联了不同页面上的物料编号和描述。5 总结与使用建议对于布局复杂的文档如带有合并单元格的跨页文档、扫描件、技术图纸或需要结合图表与脚注阅读的文档建议使用单通视觉提取方案。实践建议从小模型开始像gpt-4o-mini这样的模型在低推理努力下已经能解决大部分问题。按需升级如果遇到极度复杂的排版或极高的精度要求再考虑升级到gpt-4o或claude-3-5-sonnet并提高推理等级。保持透明显式定义因果图和提取逻辑让 AI 的推理过程可追踪、可审计。参考文献GAIK Project GitHub RepositoryOpen-source generative AI toolkit - Vision ExtractorLlamaParse Multimodal Parsing Study.Pydantic Documentation.