文章目录3万Star给扫描PDF加OCR文字层这个命令行工具处理了上百万份文档3万Star给扫描PDF加OCR文字层这个命令行工具处理了上百万份文档OCRmyPDF 在 GitHub 上拿到了 33k Star是一个给扫描版 PDF 添加 OCR 文字层的命令行工具。功能很集中输入扫描版 PDF输出带文字层的 PDF/A 文件。出来的 PDF 能直接搜索文字、复制粘贴内容和电子版文档没区别。市面上类似工具有不少但作者 James R. Barlow 在 2015 年前后把能找到的都试了一遍每个都不满意。有的文字放错位置复制出来是乱码有的改动原始图片分辨率导致打印效果下降有的处理多语言文档直接崩溃有的生成的文件体积太大。而且几乎没有一个能产出 PDF/A 格式而 PDF/A 是长期归档的标准。既然没有能用的就自己做一个。OCRmyPDF 的设计思路一开始就对准了这些痛点。它把 Tesseract OCR 引擎的识别结果以无损方式嵌入 PDF不动原文件中的任何内容。文字层放在图片下方位置和原始文字对齐这样复制粘贴时能拿到正确的文本流。几个细节第一它能顺便给 PDF 瘦身。扫描件体积往往偏大OCRmyPDF 会对嵌入图片做优化处理完的文件经常比原文件还小。第二自带纠偏和旋转修复。扫描时纸张放歪了、方向不对加--deskew和--rotate-pages参数就能自动修正。第三默认多核并行处理。--jobs参数控制核心数几百页的文档也不会等太久。第四支持 100 多种语言。中文简体和繁体的识别包在 Tesseract 语言包里都有装好之后-l chi_sim就能用。安装不复杂主流系统都能一行搞定# Debian/Ubuntuaptinstallocrmypdf# macOSbrewinstallocrmypdf# Fedoradnfinstallocrmypdf使用之前需要确认 Tesseract 和对应语言包已装好。Ubuntu 上搜索中文包apt-cachesearch tesseract-ocrapt-getinstalltesseract-ocr-chi-sim工具本身的命令就几个看一眼就会# 基本用法给 PDF 加 OCR 层ocrmypdf input.pdf output.pdf# 输出 PDF/A 格式ocrmypdf --output-type pdfa input.pdf output.pdf# 图片也能直接转成可搜索 PDFocrmypdf input.jpg output.pdf# 多语言文档ocrmypdf-lengchi_sim input.pdf output.pdf# 纠偏 四核并行ocrmypdf--deskew--jobs4input.pdf output.pdf工具还支持原地修改读写同一个文件成功才覆盖失败原文件不动。这个设计在实际工作流里很实用不用担心批量处理时把文件弄坏。OCRmyPDF 的插件体系补充了更多可能。除了默认的 Tesseract 引擎社区做了三个替换引擎的插件AppleOCR 利用 macOS 的 Vision 框架EasyOCR 基于 PyTorch 做 GPU 加速PaddleOCR 来自百度的 OCR 引擎。在特定场景下可以切到更适合的引擎不用改工作流。文档管理系统 Paperless-ngx 也集成了 OCRmyPDF用来给归档文档自动加文字层说明这套工具在文档处理场景里已被验证过。如果你有一堆扫描版 PDF 需要处理想让它们能搜索、能复制、能长期保存OCRmyPDF 是目前命令行工具里一个省心的选择。。如果你有一堆扫描版 PDF 需要处理想让它们能搜索、能复制、能长期保存OCRmyPDF 是目前命令行工具里一个省心的选择。
3万Star,给扫描PDF加OCR文字层,这个命令行工具处理了上百万份文档
发布时间:2026/6/20 1:32:11
文章目录3万Star给扫描PDF加OCR文字层这个命令行工具处理了上百万份文档3万Star给扫描PDF加OCR文字层这个命令行工具处理了上百万份文档OCRmyPDF 在 GitHub 上拿到了 33k Star是一个给扫描版 PDF 添加 OCR 文字层的命令行工具。功能很集中输入扫描版 PDF输出带文字层的 PDF/A 文件。出来的 PDF 能直接搜索文字、复制粘贴内容和电子版文档没区别。市面上类似工具有不少但作者 James R. Barlow 在 2015 年前后把能找到的都试了一遍每个都不满意。有的文字放错位置复制出来是乱码有的改动原始图片分辨率导致打印效果下降有的处理多语言文档直接崩溃有的生成的文件体积太大。而且几乎没有一个能产出 PDF/A 格式而 PDF/A 是长期归档的标准。既然没有能用的就自己做一个。OCRmyPDF 的设计思路一开始就对准了这些痛点。它把 Tesseract OCR 引擎的识别结果以无损方式嵌入 PDF不动原文件中的任何内容。文字层放在图片下方位置和原始文字对齐这样复制粘贴时能拿到正确的文本流。几个细节第一它能顺便给 PDF 瘦身。扫描件体积往往偏大OCRmyPDF 会对嵌入图片做优化处理完的文件经常比原文件还小。第二自带纠偏和旋转修复。扫描时纸张放歪了、方向不对加--deskew和--rotate-pages参数就能自动修正。第三默认多核并行处理。--jobs参数控制核心数几百页的文档也不会等太久。第四支持 100 多种语言。中文简体和繁体的识别包在 Tesseract 语言包里都有装好之后-l chi_sim就能用。安装不复杂主流系统都能一行搞定# Debian/Ubuntuaptinstallocrmypdf# macOSbrewinstallocrmypdf# Fedoradnfinstallocrmypdf使用之前需要确认 Tesseract 和对应语言包已装好。Ubuntu 上搜索中文包apt-cachesearch tesseract-ocrapt-getinstalltesseract-ocr-chi-sim工具本身的命令就几个看一眼就会# 基本用法给 PDF 加 OCR 层ocrmypdf input.pdf output.pdf# 输出 PDF/A 格式ocrmypdf --output-type pdfa input.pdf output.pdf# 图片也能直接转成可搜索 PDFocrmypdf input.jpg output.pdf# 多语言文档ocrmypdf-lengchi_sim input.pdf output.pdf# 纠偏 四核并行ocrmypdf--deskew--jobs4input.pdf output.pdf工具还支持原地修改读写同一个文件成功才覆盖失败原文件不动。这个设计在实际工作流里很实用不用担心批量处理时把文件弄坏。OCRmyPDF 的插件体系补充了更多可能。除了默认的 Tesseract 引擎社区做了三个替换引擎的插件AppleOCR 利用 macOS 的 Vision 框架EasyOCR 基于 PyTorch 做 GPU 加速PaddleOCR 来自百度的 OCR 引擎。在特定场景下可以切到更适合的引擎不用改工作流。文档管理系统 Paperless-ngx 也集成了 OCRmyPDF用来给归档文档自动加文字层说明这套工具在文档处理场景里已被验证过。如果你有一堆扫描版 PDF 需要处理想让它们能搜索、能复制、能长期保存OCRmyPDF 是目前命令行工具里一个省心的选择。。如果你有一堆扫描版 PDF 需要处理想让它们能搜索、能复制、能长期保存OCRmyPDF 是目前命令行工具里一个省心的选择。