Apache Tika 教程

发布时间：2026/6/14 20:20:13

Apache Tika 是一个内容分析工具包用于检测和提取文档中的元数据和文本内容。它支持超过1000种文件格式。1. 核心特性格式检测自动识别文件类型MIME内容提取提取纯文本内容元数据提取获取作者、创建日期等信息语言检测识别文档语言2. 快速开始Maven 依赖dependency groupIdorg.apache.tika/groupId artifactIdtika-core/artifactId version2.9.1/version /dependency dependency groupIdorg.apache.tika/groupId artifactIdtika-parsers-standard-package/artifactId version2.9.1/version /dependency基础用法import org.apache.tika.Tika; import java.io.File; import java.io.InputStream; // 最简单的方式 Tika tika new Tika(); String text tika.parseToString(new File(document.pdf)); System.out.println(text);3. 主要使用方式方式一Tika API推荐新手Tika tika new Tika(); // 文件类型检测 String mimeType tika.detect(new File(test.pdf)); // 解析文件 String content tika.parseToString(new File(test.docx)); // 解析流 try (InputStream is new FileInputStream(test.pptx)) { String content tika.parseToString(is); }方式二Parser API更精细控制import org.apache.tika.parser.AutoDetectParser; import org.apache.tika.metadata.Metadata; import org.apache.tika.sax.BodyContentHandler; AutoDetectParser parser new AutoDetectParser(); BodyContentHandler handler new BodyContentHandler(); Metadata metadata new Metadata(); try (InputStream stream new FileInputStream(document.pdf)) { parser.parse(stream, handler, metadata); // 获取文本 String text handler.toString(); // 获取元数据 String author metadata.get(Author); String date metadata.get(Creation-Date); }方式三RecursiveParser递归嵌入文件RecursiveParserWrapper wrapper new RecursiveParserWrapper( new AutoDetectParser() ); try (InputStream stream new FileInputStream(embedded.doc)) { wrapper.parse(stream, new BodyContentHandler(), new Metadata()); for (RecursiveParserWrapperHandler.MetadataWithContent mwc : wrapper.getMetadataList()) { System.out.println(File: mwc.getMetadata().get(Metadata.RESOURCE_NAME_KEY)); System.out.println(Content: mwc.getContentHandler().toString()); } }4. 常见文件格式支持格式扩展名支持程度PDF.pdf完整Word.doc, .docx完整Excel.xls, .xlsx完整PowerPoint.ppt, .pptx完整HTML/XML.html, .xml完整图片.jpg, .png, .gif文本元数据邮件.eml, .msg完整RTF.rtf完整TXT.txt完整5. 配置选项设置最大字符串长度// 默认100k字符 BodyContentHandler handler new BodyContentHandler(500000);自定义配置import org.apache.tika.config.TikaConfig; TikaConfig config new TikaConfig(); Tika tika new Tika(config); // 或使用自定义配置文件 TikaConfig config new TikaConfig(my-tika-config.xml);排除特定解析器Parsers parsers new Parsers(); SetMediaType excluded Set.of( MediaType.APPLICATION_ZIP, MediaType.APPLICATION_PDF ); AutoDetectParser parser new AutoDetectParser( parsers.getParsers(excluded) );6. 高级功能语言检测import org.apache.tika.language.LanguageIdentifier; String text This is an English sentence.; LanguageIdentifier identifier new LanguageIdentifier(text); String language identifier.getLanguage(); // en提取特定元数据Metadata metadata new Metadata(); // 常用元数据字段 metadata.names().forEach(name - { System.out.println(name : metadata.get(name)); }); // 标准字段 metadata.get(Metadata.AUTHOR); metadata.get(Metadata.CREATION_DATE); metadata.get(Metadata.TITLE);嵌入式内容处理EmbeddedDocumentExtractor extractor new EmbeddedDocumentExtractor() { Override public boolean shouldParseEmbedded(Metadata metadata) { return true; } Override public void parseEmbedded(InputStream stream, ContentHandler handler, Metadata metadata, boolean outputHtml) { // 处理嵌入式文件 } };7. 命令行工具Tika 提供了命令行版本# 下载 tika-app.jar wget https://archive.apache.org/dist/tika/2.9.1/tika-app-2.9.1.jar # 提取文本 java -jar tika-app-2.9.1.jar --text document.pdf # 检测MIME类型 java -jar tika-app-2.9.1.jar --detect file.pdf # 提取元数据 java -jar tika-app-2.9.1.jar --metadata document.docx # 列出支持的类型 java -jar tika-app-2.9.1.jar --list-supported-types # JSON输出 java -jar tika-app-2.9.1.jar --json document.pdf8. 性能优化复用解析器实例// 正确做法 - 单例 private static final AutoDetectParser PARSER new AutoDetectParser(); // 错误做法 - 每次新建 // AutoDetectParser parser new AutoDetectParser(); // 消耗资源使用ParseContext缓存ParseContext context new ParseContext(); context.set(Parser.class, PARSER); // 复用context parser.parse(stream, handler, metadata, context);配置内存限制TikaConfig config TikaConfig.getDefaultConfig(); // 修改配置限制解析时间和内存9. 常见问题解决中文乱码// 确保使用正确的字符编码 BodyContentHandler handler new BodyContentHandler(-1); // 手动设置编码 String content new String(text.getBytes(ISO-8859-1), UTF-8);大文件处理// 使用流式处理避免全部加载到内存 try (InputStream stream new FileInputStream(large.pdf)) { // 限制解析内容大小 BodyContentHandler handler new BodyContentHandler(1024 * 1024); parser.parse(stream, handler, metadata); }异常处理import org.apache.tika.exception.TikaException; import org.xml.sax.SAXException; try { String content tika.parseToString(file); } catch (TikaException e) { // Tika 特定错误如无法解析 System.err.println(Tika error: e.getMessage()); } catch (IOException e) { // 文件读写错误 System.err.println(IO error: e.getMessage()); } catch (SAXException e) { // XML 解析错误 System.err.println(SAX error: e.getMessage()); }10. 完整示例文档索引工具import org.apache.tika.Tika; import org.apache.tika.metadata.Metadata; import org.apache.tika.parser.AutoDetectParser; import org.apache.tika.parser.ParseContext; import org.apache.tika.sax.BodyContentHandler; import java.io.File; import java.io.FileInputStream; import java.io.InputStream; import java.nio.file.Files; import java.nio.file.Path; import java.util.ArrayList; import java.util.List; import java.util.concurrent.ExecutorService; import java.util.concurrent.Executors; public class DocumentIndexer { private static final Tika tika new Tika(); private static final AutoDetectParser parser new AutoDetectParser(); public static class DocumentInfo { String path; String content; String mimeType; String author; String title; long fileSize; Override public String toString() { return String.format(File: %s\nType: %s\nAuthor: %s\nTitle: %s\nSize: %d bytes\nContent: %.100s...\n, path, mimeType, author, title, fileSize, content); } } public static DocumentInfo indexDocument(File file) throws Exception { DocumentInfo info new DocumentInfo(); info.path file.getAbsolutePath(); info.fileSize file.length(); info.mimeType tika.detect(file); Metadata metadata new Metadata(); BodyContentHandler handler new BodyContentHandler(1000000); // 1MB限制 try (InputStream stream new FileInputStream(file)) { parser.parse(stream, handler, metadata, new ParseContext()); info.content handler.toString(); info.author metadata.get(Author); if (info.author null) info.author metadata.get(creator); info.title metadata.get(Title); if (info.title null) info.title file.getName(); } return info; } public static void main(String[] args) throws Exception { File directory new File(/path/to/documents); ListDocumentInfo documents new ArrayList(); Files.walk(directory.toPath()) .filter(Files::isRegularFile) .limit(100) .forEach(path - { try { documents.add(indexDocument(path.toFile())); } catch (Exception e) { System.err.println(Failed to index: path - e.getMessage()); } }); // 输出结果 documents.forEach(doc - System.out.println(doc)); // 全文搜索示例 String searchTerm important; System.out.println(\nSearching for: searchTerm); documents.stream() .filter(doc - doc.content.toLowerCase().contains(searchTerm.toLowerCase())) .forEach(doc - System.out.println(Found in: doc.path)); } }11. 版本升级说明从 1.x 到 2.x 的主要变化Java 11 要求API 包名从org.apache.tika.parser保持不变移除了部分过时 API性能优化和内存改进

Windows窗口调整难题的终极解决方案：WindowResizer深度解析

Windows窗口调整难题的终极解决方案：WindowResizer深度解析【免费下载链接】WindowResizer 一个可以强制调整应用程序窗口大小的工具项目地址: https://gitcode.com/gh_mirrors/wi/WindowResizer 你是否曾遇到某些应用程序窗口顽固地拒绝调整大小&#xff…

2026/6/14 20:19:33 阅读更多

基于ML307R Cat.1 4G模块的ESP32智能硬件双网络架构设计与实现

基于ML307R Cat.1 4G模块的ESP32智能硬件双网络架构设计与实现【免费下载链接】xiaozhi-esp32 An MCP-based chatbot | 一个基于MCP的聊天机器人项目地址: https://gitcode.com/GitHub_Trending/xia/xiaozhi-esp32 在物联网设备开发中，网络连接的稳定性与灵…

2026/6/14 20:19:12 阅读更多

5个高级技巧彻底掌握M3U8流媒体下载：从零构建你的视频内容库

5个高级技巧彻底掌握M3U8流媒体下载：从零构建你的视频内容库【免费下载链接】m3u8-downloader 一个M3U8 视频下载(M3U8 downloader)工具。跨平台: 提供windows、linux、mac三大平台可执行文件,方便直接使用。项目地址: https://gitcode.com/gh_mirrors/m3u8d/m…

2026/6/14 20:19:12 阅读更多

自动化提示词优化算法在 Harness 中的集成

自动化提示词优化算法在 Harness 中的集成引言痛点引入作为一名曾在头部互联网公司（假设是国内的字节跳动或阿里云，或者海外的Stripe/Shopify，这样更贴近企业级场景）负责过AI辅助DevOps（AIOpsAIDevEx）…

2026/6/14 22:02:12 阅读更多

MPC8540以太网控制器：地址识别、哈希过滤与缓冲区描述符详解

1. MPC8540以太网控制器：从数据链路到内存的精密流水线在嵌入式网络设备开发，尤其是基于PowerPC架构的高性能通信处理器领域，MPC8540的快速以太网控制器（FEC）是一个绕不开的核心模块。它不仅仅是连接PHY芯片的接口&…

2026/6/14 22:00:09 阅读更多

【万字文档+源码】基于springboot+vue酒店点餐管理系统 -学习项目资料分享

一、项目概述 1.1 项目背景随着酒店行业的数字化转型，传统的酒店点餐、客房预订与运营管理方式效率低下，信息传递不及时，难以满足客户多样化的服务需求。本项目基于 SpringBootVue 前后端分离架构，打造集酒店信息管理、美食点餐…

2026/6/14 21:59:08 阅读更多

3个技巧让Windows电脑风扇更智能：FanControl完全配置指南

3个技巧让Windows电脑风扇更智能：FanControl完全配置指南【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending…

2026/6/14 21:59:08 阅读更多

【万字文档+源码】基于springboot+vue购物网站系统 -学习项目资料分享

【万字文档源码】基于springbootvue购物网站系一、项目概述 1.1 项目背景随着电商行业的蓬勃发展，线上购物已成为主流消费方式，传统线下购物存在时间、空间限制，而现有电商平台在用户体验、商家入驻管理、多角色协同等方面仍存在优化空间。…

2026/6/14 21:59:08 阅读更多

从鸢尾花分类到用户流失预测：用Scikit-learn快速上手决策树实战

从鸢尾花分类到用户流失预测：用Scikit-learn快速上手决策树实战决策树算法作为机器学习领域的经典方法，因其直观易懂、无需复杂特征工程的特点，成为数据科学家解决分类与回归问题的首选工具之一。不同于教科书式的理论讲解，本文将…

2026/6/14 21:59:08 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

音乐文件解锁实战指南：3个场景解决你的播放困境【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地址: https://git…

2026/6/14 0:00:09 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

遥感卫星数据选型实战指南：从参数解析到场景化应用当面对GEE、PIE-Engine等云平台上数十种遥感数据源时，许多研究者常陷入选择困难——Landsat的历史连续性、Sentinel-2的红边波段优势、高分系列的亚米级分辨率各有千秋。本文将打破常规参数罗列式对比&a…

2026/6/14 0:00:30 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

1. 项目概述：MC68302 AutoBaud技术深度解析在嵌入式系统开发，尤其是那些需要与外部设备进行串口通信的场景里，最让人头疼的环节之一就是波特率匹配。想象一下，你设计了一个数据采集终端，需要连接来自不同厂家、不同年代…

2026/6/14 0:01:11 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

2026/6/14 0:00:09 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

2026/6/14 0:00:30 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

2026/6/14 0:01:11 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/14 10:35:25 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/14 10:02:42 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/14 10:02:42 阅读更多

相关文章

Windows窗口调整难题的终极解决方案：WindowResizer深度解析

基于ML307R Cat.1 4G模块的ESP32智能硬件双网络架构设计与实现

5个高级技巧彻底掌握M3U8流媒体下载：从零构建你的视频内容库

自动化提示词优化算法在 Harness 中的集成

MPC8540以太网控制器：地址识别、哈希过滤与缓冲区描述符详解

【万字文档+源码】基于springboot+vue酒店点餐管理系统 -学习项目资料分享

3个技巧让Windows电脑风扇更智能：FanControl完全配置指南

【万字文档+源码】基于springboot+vue购物网站系统 -学习项目资料分享

从鸢尾花分类到用户流失预测：用Scikit-learn快速上手决策树实战

音乐文件解锁实战指南：3个场景解决你的播放困境

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

音乐文件解锁实战指南：3个场景解决你的播放困境

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因