百度发布文档解析新王者：0.9B参数，96.33%得分新SOTA

发布时间：2026/6/9 2:27:17

文档解析能把一张张文档图片变成机器能读懂的结构化内容包括文字、表格、公式、图表、印章甚至阅读顺序和版面布局。这件事做得好不好直接决定了下游检索、推理、RAG检索增强生成系统能不能拿到干净靠谱的输入。百度PaddlePaddle团队发布并开源了PaddleOCR-VL-1.6。一个0.9B参数的紧凑模型在OmniDocBench v1.6上拿下96.33%的总分登顶榜首。PaddleOCR-VL-1.6精准找到上一代模型的薄弱环节对症下药补充了数据然后用三阶段递进式训练CPT-SFT-RL把数据的价值榨干从而获得了SOTA性能。各类场景下都比上一代模型有明显提升。例如表格识别图表识别公式识别古籍识别生僻字识别印章识别扭曲图像识别弱点在哪里PaddleOCR-VL-1.5已经是一个很强的基线模型0.9B参数在OmniDocBench v1.5上得分94.93%。在基线的基础上剩下的错误呈现出一个有趣的特征它们不再均匀散布在各处而是集中出现在模型特定的薄弱区域。继续无差别地堆数据收效甚微因为大部分训练预算花在了模型已经搞定的部分上对薄弱区域的改善有限。PaddleOCR-VL-1.6的做法是从上一代模型出发系统性地诊断三类薄弱区域。第一类叫Boundary-Fragile Regions边界脆弱区域。有些样本稍微做点不影响语义的视觉扰动比如像素微移、JPEG压缩、轻微模糊模型输出就大幅变动。甚至不同训练后期的checkpoint对同一个样本的预测都不一致。模型在这些区域的决策边界很不稳定还没学到靠谱的映射。第二类叫Coverage-Sparse Regions覆盖稀疏区域。有些样本明明在训练集里出现过类似模式模型就是预测不对。原因是周围的数据分布太稀疏长尾文档模式被主流分布吞掉了。基于这些覆盖稀疏区域团队从内部大规模文档池中定向检索补充了长尾数据。第三类叫Unreliable-Supervision Regions不可靠监督区域。模型有时会稳定地输出高置信度的错误结果问题不在输入难在标签本身就错了。团队引入三个外部专家模型Qianfan-OCR、GLM-OCR、MinerU2.5-Pro对同一训练样本做独立预测与原始标签交叉验证。找出了薄弱区域团队给这些区域精准补充了标注数据。三步走练法数据准备好了PaddleOCR-VL-1.6 采用了 “模型驱动的数据引擎渐进式后训练策略” 的整体优化框架。先从PaddleOCR-VL-1.5出发定位弱点再围绕这些弱点构建高价值数据最后通过继续预训练、监督微调、强化学习的渐进式后训练流程将新增数据的价值稳定注入模型。在不改变 0.9B 高效架构的前提下模型实现了更强的文档解析性能、鲁棒性和泛化能力。PaddleOCR-VL-1.6整个系统由两个模型组成PP-DocLayout V3做版面分析PaddleOCR-VL-1.6-0.9B做视觉语言理解。架构沿用PaddleOCR-VL-1.5的设计包含Native Resolution Visual Encoder原生分辨率视觉编码器、Adaptive MLP Connector自适应MLP连接器和ERNIE-4.5-0.3B语言模型。没有改架构没有加大参数提升全部来自更聪明的数据策略和更精细的训练流程。第一阶段是CPTContinued Pre-Training持续预训练1680万样本。这一步的目标是广撒网把数据引擎新挖出来的长尾样本古籍、罕见字符、工业表格等和修正后的标注全部灌进去让模型先覆盖新的分布。第二阶段是SFTSupervised Fine-Tuning监督微调730万样本。这一步聚焦难题精练数据来源有三个用UACSUncertainty-Aware Cluster Sampling不确定性感知聚类采样策略从CPT语料中挖出的难样本三个专家达不成共识的困难样本以及被Unreliable-Supervision挖掘修正了标签的样本。高质量、高难度专门打磨模型在脆弱区域的表现。第三阶段是RLReinforcement Learning强化学习用GRPO做强化训练49K样本。这一步的难点在于0.9B的小模型对RL数据质量非常敏感随意选样本容易顾此失彼在某个子集上提分的同时整体性能反而下降。训练效果高度依赖每个输入能否产生有信息量的奖励差异。对于语言模型只有0.3B的紧凑模型对噪声数据、过难数据、过易数据、奖励平坦数据都格外敏感。PaddleOCR-VL-1.6 设计了面向GRPO的高潜力样本挖掘策略用监督微调后的模型对候选样本进行多次轨迹采样并从提升潜力、生成不确定性和奖励方差三个维度筛选真正“可学习、有区分度、有收益空间”的样本。针对文档解析任务输出形式复杂、二值奖励过稀疏的问题PaddleOCR-VL-1.6 进一步精心设计可验证的奖励函数将输出映射到任务相关的规范表示并通过合法性、结构修正约束、真实得分三个维度提供稳定、可验证、任务对齐的奖励信号。0.9B登顶榜单OmniDocBench v1.6是当前文档解析最权威的评测基准之一新增了MGAMMulti-Granularity Adaptive Matching多粒度自适应匹配以减少匹配偏差还增加了296页的Hard子集覆盖复杂嵌套表格、密集公式布局和非常规文档结构。PaddleOCR-VL-1.6总得分96.33%排名第一。和上一代PaddleOCR-VL-1.5的94.93%相比提升了1.4个百分点。文本编辑距离降到0.033公式CDM得分97.49%表格TEDS得分94.76%表格结构TEDS得分97.11%阅读顺序得分0.127。各项子任务都刷新了纪录。更值得关注的是Real5-OmniDocBench上的表现。这个评测模拟真实场景包括扫描、弯折、屏幕拍照、光照变化和倾斜五种情况全部用手机实拍采集。PaddleOCR-VL-1.6总得分93.19%比上一代提升1.14个百分点排名榜首。0.9B的模型跑赢了Qwen3-VL-235B和Gemini 3 Pro这些百倍参数的通用大模型。子能力方面同样全面领先。困难表格识别1258个样本覆盖20种表格类型PaddleOCR-VL-1.6的TEDS得分91.71结构TEDS得分94.67比MinerU2.5-Pro高出近2个百分点。图表解析1801个样本11种图表类型RMS-F1总分91.74中文图表93.37比上一代提升11个百分点以上。文本定位9个维度总分87.47在古文书、日文、手写中文等维度均有提升。印章识别NEDNormalized Edit Distance归一化编辑距离低至0.119远超Qwen3-VL-235B的0.382。0.9B参数跑赢了241B的InternVL3.5、1T的KimiK2.5、235B的Qwen3-VL甚至超过了GPT-5.2。对行业来说PaddleOCR-VL-1.6以更低的部署成本可以在端侧和边缘设备上运行适合文档数字化、票据识别、档案管理等实际场景。这套诊断薄弱区域、精准补数据、递进训练的方法论提供了一条在紧凑模型上持续提升性能的可行路径。参考资料https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6https://modelscope.cn/models/PaddlePaddle/PaddleOCR-VL-1.6https://github.com/PaddlePaddle/PaddleOCRhttps://arxiv.org/pdf/2606.03264

别再手动改编号了！Word交叉引用参考文献的懒人技巧（含逗号分隔实战）

告别手动编号：Word参考文献交叉引用高阶技巧全解析每次论文写到最后一刻，导师突然要求调整参考文献顺序时，那种从头到尾手动修改引用编号的绝望感，相信每个学术工作者都深有体会。更令人崩溃的是，当需要同时引用[1][2]…

2026/6/9 2:27:17 阅读更多

LLVM SelectionDAG 入门：从 IR 到机器指令到底发生了什么？

本文整理自 Justin M. Fargnoli 和 Alex E. MacLean 在 2024 LLVM Developers’ Meeting 的分享《A Beginner’s Guide to SelectionDAG》。原材料是一份 89 页的 PDF 幻灯片。1. 为什么要了解 SelectionDAG？ 如果你写过 LLVM Pass，大概率比较熟悉 LLVM …

2026/6/9 2:27:17 阅读更多

医药追溯大批量采集难题解决：药品追溯码扫码器硬件选型与数据校验设计

医药监管对追溯数据真实性、唯一性、完整性要求严苛，大批量药盒集中扫码极易出现重复采集、漏码、污损标签识别失败等问题，合理选用带批量识读与自动去重能力的药品追溯码扫码器，能够大幅降低人工校验工作量。本文结合深圳市兴通物联科技有限…

2026/6/9 2:27:17 阅读更多

GD32F405RGT6 SPI主从模式实战：手把手教你用逻辑分析仪调试时序（附完整工程）

GD32F405RGT6 SPI主从模式实战：逻辑分析仪调试全攻略最近在调试GD32F405RGT6的SPI通信时，发现很多工程师虽然能写出基本代码，但遇到实际硬件通信失败时往往束手无策。本文将分享如何借助逻辑分析仪这一利器，从波形层面彻底理解SPI…

2026/6/9 3:31:34 阅读更多

别再死记硬背公式了！用Python+NumPy手把手模拟MIMO信道，直观理解空分复用

用PythonNumPy手把手构建2x2 MIMO系统：从零理解空分复用在通信工程领域，多天线技术（MIMO）一直是提升无线传输效率的核心手段。但对于许多开发者来说，那些充满矩阵运算的数学推导就像一堵高墙，让人望而生畏。…

2026/6/9 3:31:34 阅读更多

用手机App Inventor 2做个蓝牙遥控器，5分钟控制你的Arduino LED灯（HC-42模块实战）

用App Inventor 2打造专属蓝牙遥控器：5分钟实现Arduino LED控制想象一下，当你躺在沙发上，只需轻点手机屏幕就能遥控书桌上的Arduino小灯——这种物联网的初级体验，其实用图形化编程工具5分钟就能实现。MIT App Inventor 2让移动端…

2026/6/9 3:31:34 阅读更多

图片去水印用什么工具？2026免费图片去水印工具推荐

日常刷小红书、抖音、B站，看到心动的图片想存下来当壁纸或灵感素材，结果角落一个大大的水印，瞬间兴趣全无。自己用修图软件一点点抹掉，又费时又费力，还容易留下明显的涂抹痕迹。这篇文章完全从个人收藏与学习的角度出…

2026/6/9 3:30:33 阅读更多

Agent 技术演化史：从逻辑推理到语言驱动的七十年

Agent 技术演化史：从逻辑推理到语言驱动的七十年图 1：左→右三时代视觉概览：逻辑树（规则受限）→ 游戏/棋盘（环境受限）→ 多屏操控（通用数字世界） 文章目录Agent 技术演化…

2026/6/9 3:29:53 阅读更多

别再只记“打两拍”了！深入聊聊跨时钟域(CDC)里单bit信号处理的那些“潜规则”与设计权衡

深入解析单比特跨时钟域信号处理的工程实践与设计哲学在数字电路设计中，时钟域交叉（CDC）问题就像一位沉默的刺客——平时不露痕迹，一旦出现问题却能导致整个系统崩溃。对于单比特信号的处理，许多工程师停留在"打两…

2026/6/9 3:29:53 阅读更多

5分钟上手：BilibiliDown——你的B站视频下载全能助手

5分钟上手：BilibiliDown——你的B站视频下载全能助手【免费下载链接】BilibiliDown (GUI-多平台支持) B站哔哩哔哩视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mirrors/bi…

2026/6/9 0:00:38 阅读更多

【AI】服务化部署：把AI Agent变成API服务

服务化部署：把AI Agent变成API服务📝 本章学习目标：本章聚焦安全与工程化，确保AI Agent稳定可靠运行。通过本章学习，你将全面掌握"服务化部署：把AI Agent变成API服务"这一核心主题。一、引言&…

2026/6/9 0:01:41 阅读更多

Playnite：一站式游戏库管理器，告别多平台切换烦恼

Playnite：一站式游戏库管理器，告别多平台切换烦恼【免费下载链接】Playnite Video game library manager with support for wide range of 3rd party libraries and game emulation support, providing one unified interface for your games. 项目地…

2026/6/9 0:01:41 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/9 0:23:00 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/9 0:23:12 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/9 0:15:30 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/8 9:43:25 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/8 9:43:23 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/8 9:43:30 阅读更多

相关文章

别再手动改编号了！Word交叉引用参考文献的懒人技巧（含逗号分隔实战）

LLVM SelectionDAG 入门：从 IR 到机器指令到底发生了什么？

医药追溯大批量采集难题解决：药品追溯码扫码器硬件选型与数据校验设计

GD32F405RGT6 SPI主从模式实战：手把手教你用逻辑分析仪调试时序（附完整工程）

别再死记硬背公式了！用Python+NumPy手把手模拟MIMO信道，直观理解空分复用

用手机App Inventor 2做个蓝牙遥控器，5分钟控制你的Arduino LED灯（HC-42模块实战）

图片去水印用什么工具？2026免费图片去水印工具推荐

Agent 技术演化史：从逻辑推理到语言驱动的七十年

别再只记“打两拍”了！深入聊聊跨时钟域(CDC)里单bit信号处理的那些“潜规则”与设计权衡

5分钟上手：BilibiliDown——你的B站视频下载全能助手

【AI】服务化部署：把AI Agent变成API服务

Playnite：一站式游戏库管理器，告别多平台切换烦恼

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因