3万Star，给扫描PDF加OCR文字层，这个命令行工具处理了上百万份文档

发布时间：2026/6/20 1:32:11

文章目录3万Star给扫描PDF加OCR文字层这个命令行工具处理了上百万份文档3万Star给扫描PDF加OCR文字层这个命令行工具处理了上百万份文档OCRmyPDF 在 GitHub 上拿到了 33k Star是一个给扫描版 PDF 添加 OCR 文字层的命令行工具。功能很集中输入扫描版 PDF输出带文字层的 PDF/A 文件。出来的 PDF 能直接搜索文字、复制粘贴内容和电子版文档没区别。市面上类似工具有不少但作者 James R. Barlow 在 2015 年前后把能找到的都试了一遍每个都不满意。有的文字放错位置复制出来是乱码有的改动原始图片分辨率导致打印效果下降有的处理多语言文档直接崩溃有的生成的文件体积太大。而且几乎没有一个能产出 PDF/A 格式而 PDF/A 是长期归档的标准。既然没有能用的就自己做一个。OCRmyPDF 的设计思路一开始就对准了这些痛点。它把 Tesseract OCR 引擎的识别结果以无损方式嵌入 PDF不动原文件中的任何内容。文字层放在图片下方位置和原始文字对齐这样复制粘贴时能拿到正确的文本流。几个细节第一它能顺便给 PDF 瘦身。扫描件体积往往偏大OCRmyPDF 会对嵌入图片做优化处理完的文件经常比原文件还小。第二自带纠偏和旋转修复。扫描时纸张放歪了、方向不对加--deskew和--rotate-pages参数就能自动修正。第三默认多核并行处理。--jobs参数控制核心数几百页的文档也不会等太久。第四支持 100 多种语言。中文简体和繁体的识别包在 Tesseract 语言包里都有装好之后-l chi_sim就能用。安装不复杂主流系统都能一行搞定# Debian/Ubuntuaptinstallocrmypdf# macOSbrewinstallocrmypdf# Fedoradnfinstallocrmypdf使用之前需要确认 Tesseract 和对应语言包已装好。Ubuntu 上搜索中文包apt-cachesearch tesseract-ocrapt-getinstalltesseract-ocr-chi-sim工具本身的命令就几个看一眼就会# 基本用法给 PDF 加 OCR 层ocrmypdf input.pdf output.pdf# 输出 PDF/A 格式ocrmypdf --output-type pdfa input.pdf output.pdf# 图片也能直接转成可搜索 PDFocrmypdf input.jpg output.pdf# 多语言文档ocrmypdf-lengchi_sim input.pdf output.pdf# 纠偏四核并行ocrmypdf--deskew--jobs4input.pdf output.pdf工具还支持原地修改读写同一个文件成功才覆盖失败原文件不动。这个设计在实际工作流里很实用不用担心批量处理时把文件弄坏。OCRmyPDF 的插件体系补充了更多可能。除了默认的 Tesseract 引擎社区做了三个替换引擎的插件AppleOCR 利用 macOS 的 Vision 框架EasyOCR 基于 PyTorch 做 GPU 加速PaddleOCR 来自百度的 OCR 引擎。在特定场景下可以切到更适合的引擎不用改工作流。文档管理系统 Paperless-ngx 也集成了 OCRmyPDF用来给归档文档自动加文字层说明这套工具在文档处理场景里已被验证过。如果你有一堆扫描版 PDF 需要处理想让它们能搜索、能复制、能长期保存OCRmyPDF 是目前命令行工具里一个省心的选择。。如果你有一堆扫描版 PDF 需要处理想让它们能搜索、能复制、能长期保存OCRmyPDF 是目前命令行工具里一个省心的选择。

深入解析NXP MC56F84xxx DSC：双哈佛架构与工业电机电源控制实战

1. 项目概述：为什么我们需要数字信号控制器？如果你在工业自动化、电机驱动或者开关电源领域摸爬滚打过几年，肯定对“实时性”和“算力”这两个词又爱又恨。传统的微控制器（MCU）处理逻辑控制游刃有余，但一遇…

2026/6/19 15:10:39 阅读更多

079、依赖升级风险控制：package.json 和 requirements.txt 跨版本升级的 AI 辅助

079、依赖升级风险控制：package.json 和 requirements.txt 跨版本升级的 AI 辅助一次让我熬夜到凌晨三点的依赖升级事故上周五下午，我接手了一个遗留了三年的Node.js项目。package.json里躺着express@4.16.0，body-parser还是1.18.x的版本。客户要求升级到Express 4.21.x，…

2026/6/19 12:01:36 阅读更多

用华为eNSP复现一个经典BGP实验：手把手教你理解iBGP与eBGP的差异与联动

华为eNSP实战：从零构建跨AS网络，解密iBGP/eBGP核心机制当我在第一次配置跨自治系统的BGP网络时，面对路由黑洞和下一跳不可达的问题，整整花了三小时才找到症结所在。这次经历让我深刻意识到，仅仅记住BGP配置命令远远不够…

2026/6/16 2:30:08 阅读更多

SQLi-Labs靶场从零搭建到通关全攻略（一）：环境搭建与基础四关

摘要：SQL注入是Web安全领域最经典、最常见的漏洞之一，而SQLi-Labs则是一个专为学习SQL注入而设计的开源靶场平台，共包含65个难度递增的关卡。本文作为系列攻略的第一篇，将从SQL注入的背景讲起，手把手带你完成SQLi-Labs…

2026/6/20 1:29:13 阅读更多

2026年成都GEO优化机构怎么选？从核心逻辑到机构测评全指南

AI搜索时代已经全面到来，超62%的用户在决策前会优先通过豆包、DeepSeek、通义千问等生成式AI工具获取信息，传统SEO已经无法满足企业“被信任、被选择”的获客需求，GEO（生成式引擎优化）作为全新的数字营销赛道&#xff…

2026/6/20 1:27:32 阅读更多

Python计算机毕设之基于 Django 的青岛滨海学院馆藏县志运维管理系统设计面向院校馆藏的县志捐赠借阅数据管理系统(完整前后端代码+说明文档+LW，调试定制等）

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

2026/6/20 1:26:51 阅读更多

图算法的节点合并机制与复杂度简化模型的技术6

引言研究背景与意义：图算法在社交网络、生物信息学等领域的应用需求节点合并机制的定义：通过合并相似或冗余节点简化图结构复杂度简化模型的目标：降低计算成本，提升算法效率节点合并机制的核心方法基于相似度的合并定义节点相似度…

2026/6/20 1:25:51 阅读更多

分布式系统实战：Elasticsearch搜索与RabbitMQ消息队列核心原理剖析

在构建高并发、高可用的分布式系统时，数据检索与服务解耦是最核心的两大难题。Elasticsearch（ES）和 RabbitMQ 分别是这两个领域的黄金搭档。本文将以实战笔记为线索，深入剖析 ES 的底层索引原理与 RabbitMQ 的可靠性机制&#xff…

2026/6/20 1:25:10 阅读更多

BiliTools：3步将B站视频变成你的个人知识库，AI智能总结让学习效率提升300%

BiliTools：3步将B站视频变成你的个人知识库，AI智能总结让学习效率提升300% 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱，支持下载视频、番剧等等各类资源项目地址: https://gitcode.com/GitHub_T…

2026/6/20 1:23:49 阅读更多

MCU系统集成模块(SIM)详解：复位、中断与低功耗管理实战

1. 系统集成模块(SIM)在MCU中的核心角色在嵌入式开发领域，尤其是面对工业控制、汽车电子这类对可靠性要求极高的场景，我们常常把目光聚焦在CPU性能、外设功能或者通信协议栈上。然而，一个真正稳定、可靠的系统，其基石往往是一个默…

2026/6/20 0:00:26 阅读更多

MC68HC908RF2A定时器PWM生成原理与实战：无缓冲与缓冲模式详解

1. 项目概述与核心价值在嵌入式开发，尤其是电机驱动、LED调光、开关电源这些需要精确控制“能量”的领域，脉冲宽度调制（PWM）技术是工程师手中的一把瑞士军刀。它的本质很简单：用一个固定频率的方波，通过改变…

2026/6/20 0:02:08 阅读更多

在银河麒麟V10桌面(2205版本)上实战部署软RAID 1：从模块黑名单到自动挂载

1. 银河麒麟V10桌面系统与软RAID 1基础认知第一次在银河麒麟V10桌面上折腾软RAID 1时，我踩了不少坑。这个国产操作系统基于Linux内核，但2205版本对软RAID模块做了特殊处理，需要额外操作才能正常使用。软RAID 1其实就是磁盘镜像技术&#xff…

2026/6/20 0:02:08 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

音乐文件解锁实战指南：3个场景解决你的播放困境【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地址: https://git…

2026/6/20 0:58:06 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

遥感卫星数据选型实战指南：从参数解析到场景化应用当面对GEE、PIE-Engine等云平台上数十种遥感数据源时，许多研究者常陷入选择困难——Landsat的历史连续性、Sentinel-2的红边波段优势、高分系列的亚米级分辨率各有千秋。本文将打破常规参数罗列式对比&a…

2026/6/20 0:58:07 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

1. 项目概述：MC68302 AutoBaud技术深度解析在嵌入式系统开发，尤其是那些需要与外部设备进行串口通信的场景里，最让人头疼的环节之一就是波特率匹配。想象一下，你设计了一个数据采集终端，需要连接来自不同厂家、不同年代…

2026/6/20 0:58:03 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/19 11:15:51 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/19 11:15:58 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/19 11:15:53 阅读更多

相关文章