Apache Tika 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
Apache Tika 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
授权协议 Apache
开发语言 Java
操作系统 跨平台
软件类型 开源软件
所属分类 程序开发搜索引擎
开发厂商 Apache
地区 不详
提 交 者 红薯
适用人群 未知
收录时间 2009-05-07

软件简介

Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了 POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩展 API,用来丰富其对第三方文件格式的支持。

在当前的0.2-SNAPSHOT 版本中, Tika 提供了对如下文件格式的支持:

  • PDF - 通过 Pdfbox

  • MS-* - 通过 POI

  • HTML - 使用 nekohtml 将不规范的 html 整理成为 xhtml

  • OpenOffice 格式 - Tika 提供

  • Archive - zip, tar, gzip, bzip 等

  • RTF - Tika 提供

  • Java class - Class 解析由 ASM 完成

  • Image - 只支持图像的元数据抽取

  • XML

Tika 的 API 十分便捷,核心是 Parser interface,其中定义了一个 parse 方法:
public void parse(InputStream stream, ContentHandler handler, Metadata metadata)
用 stream 参数传递需要解析的文件流, 文本内容会被传入 handler,而元数据会更新至 metadata。

可以使用 Tika 的 ParserUtils 工具来根据文件的mime-type来得到一个适当的 Parser 来进行解析工作。或者 Tika 还提供了一个AutoDetectParser 根据不同的二进制文件的特殊格式 (比如说 Magic Code),来寻找适合的 Parser。

展开阅读全文

评论 (4)

加载中
@红薯 Tika的软件文档链接地址失效了。 Apache Tika
2013/08/29 21:00
回复
举报
2014/11/20 18:00
回复
举报
谁有例子。 #Apache Tika#
2015/04/21 12:23
回复
举报
2015/11/20 16:19
回复
举报
更多评论
发表于AI & 大数据专区
03/21 07:27

Apache Tika 1.24 发布,内容抽取工具集合

Apache Tika 1.24 发布了,Tika 是一个内容抽取的工具集合 (a toolkit for text extracting) 。它集成了 POI 和 Pdfbox,并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩展 API,用来丰富其对第三方文件格式的支持。 主要更新内容如下: 更新 Drew Noakes 的元数据提取器 启用 PDF 中的结构标签的...

1
19
发表于服务端专区
2019/12/10 07:25

Apache Tika 1.23 发布,内容抽取工具集合

Apache Tika 1.23 发布了,Tika 是一个内容抽取的工具集合 (a toolkit for text extracting) 。它集成了 POI 和 Pdfbox,并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩展 API,用来丰富其对第三方文件格式的支持。 新版本包含许多改进和错误修复,主要更新内容如下: 注意:现在,当用户在渲染的...

0
26
发表于软件架构专区
2019/08/05 07:07

Apache Tika 1.22 发布,内容抽取工具集合

Apache Tika 1.22 已发布,Tika 是一个内容抽取的工具集合 (a toolkit for text extracting) 。它集成了 POI 和 Pdfbox,并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩展 API,用来丰富其对第三方文件格式的支持。 新版本包含许多改进和错误修复,主要更新内容如下: 注意:已知回归:PDFBOX-45...

0
26
发表于AI & 大数据专区
2018/12/24 07:12

Apache Tika 1.20 发布,内容抽取工具集合

Apache Tika 1.20 已发布,Tika 是一个内容抽取的工具集合 (a toolkit for text extracting) 。它集成了 POI 和 Pdfbox,并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩展 API,用来丰富其对第三方文件格式的支持。 Apache Tika 1.20 包含一系列修复和改进,部分如下: POI 升级至 4.0.1 PDFBox...

0
13
发表于AI & 大数据专区
2018/10/10 07:27

Apache Tika 1.19.1 发布,内容抽取工具集合

Apache Tika 1.19.1 已发布,Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了 POI 和 Pdfbox,并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩展 API,用来丰富其对第三方文件格式的支持。 Apache Tika 1.19.1 主要包括对 MP3Parser 和 SAX 解析处理的两个关键 bug 修复...

0
7
发表于软件架构专区
2018/09/23 08:14

Apache Tika 1.19 发布,内容抽取工具集合

Apache Tika 1.19 发布了,Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了 POI 和 Pdfbox,并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩展 API,用来丰富其对第三方文件格式的支持。 Apache Tika 1.19 包含许多改进和错误修复,其中包括: 要求 Java 8 或更高版本 ...

0
18
发表于软件架构专区
2018/04/26 07:31

Apache Tika 1.18 发布,内容抽取工具集合

Apache Tika 1.18 已发布,Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了 POI 和 Pdfbox,并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩展 API,用来丰富其对第三方文件格式的支持。 Apache Tika 1.18 包含许多改进和错误修复,其中包括: Jackson 更新至 2.9.5 支持...

1
21
发表了资讯
2017/12/15 07:42

Apache Tika 1.17 发布 ,内容抽取工具集合

Apache Tika 1.7 发布了,Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了 POI 和 Pdfbox,并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩展 API,用来丰富其对第三方文件格式的支持。 Apache Tika 1.17包含许多改进和错误修复。 Fix thread-safety in ChmExtractor (T...

1
21
发表了资讯
2017/07/13 07:25

Apache Tika 1.16 发布 ,内容抽取工具集合

Apache Tika 1.16 发布了,Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了 POI 和 Pdfbox,并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩展 API,用来丰富其对第三方文件格式的支持。 部分更新内容如下: Exclude jj2000 from edu.ucar grip to avoid potential lic...

0
32
发表了资讯
2017/05/31 07:10

Apache Tika 1.15 发布 ,内容抽取工具集合

Apache Tika 1.15 发布了,该版本包含许多改进和错误修复。新发布的版本已推送到 Apache 发布网站以及 Maven Central。 Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了 POI 和 Pdfbox,并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩展 API,用来丰富其对第三方文件格...

1
18
发表了资讯
2016/11/11 08:21

Apache Tika 1.14 发布 ,内容抽取工具集合

Apache Tika 1.14 发布了,该版本包含了一些改进和 Bug 修复。Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了 POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩展 API,用来丰富其对第三方文件格式的支持。 更新如下: Extract all headers from MSG/RFC82...

5
43
发表了资讯
2016/05/17 00:00

Apache Tika 1.13 发布 ,内容抽取工具集合

Apache Tika 1.13 发布了,更新如下: Upgrade to PDFBox 2.0.1 (TIKA-1285/TIKA-1959). PDFParser中的主要更新 The classic sequential parser is no longer available. Tiff files are no longer extracted by default. See https://pdfbox.apache.org/2.0/dependencies.html#optional-components for optional compon...

3
20
发表了资讯
2016/02/16 00:00

Apache Tika 1.12 发布,内容抽取工具

Apache Tika 1.12 发布,Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。 该版本包含不少改进和 bug 修复。具体内容包括: * Slide notes are now linked to the sl...

0
28
发表了资讯
2015/10/27 00:00

Apache Tika 1.11 发布,内容抽取工具集合

Apache Tika 1.11 发布,此版本包括大量的改进和 bug 修复: * Java7 API support for allowing java.nio.file.Path as method arguments was added to Tika and to ParsingReader, TikaFileTypeDetector, and to Tika Config (TIKA-1745, TIKA-1746, TIKA-1751). * MIME support was added for WebVTT: The Web Video T...

3
49
发表了资讯
2015/06/24 00:00

Apache Tika 1.9 发布,内容抽取工具集合

Apache Tika 1.9 发布,此版本包括一些改进和 bug 修复,详细改进请看更新日志: * The ability to use the cTAKES clinical text     knowledge extraction system for biomedical data is      now included as a Tika parser (TIKA-1645, TIKA-1642).   * Tika-server allows a...

4
83
发表了资讯
2015/04/21 00:00

Apache Tika 1.8 发布,内容抽取工具集合

Apache Tika 1.8 发布,此版本主要有以下更新: Fix null pointer when processing ODT footer styles (TIKA-1600). Upgrade to com.drewnoakes' metadata-extractor to 2.0 and add parser for webp metadata (TIKA-1594). Duration extracted from MP3s with no ID3 tags (TIKA-1589). Upgraded to PDFBox 1.8.9 (TIKA...

6
41
发表了资讯
2015/01/17 00:00

Apache Tika 1.7 发布,文本内容抽取集

Apache Tika 1.7 发布了,Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。 该版本包含很多改进和 bug 修复,详细列表如下:   * Fixed resource leak in Out...

2
26
发表了资讯
2014/09/06 00:00

Apache Tika 1.6 发布,内容抽取工具集合

Apache Tika 1.6 发布,此版本包括大量的改进和 bug 修复,现已提供下载,详情请查看更新日志。 Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。 在当前的0.2-SNAPS...

1
73
发表了资讯
2013/01/23 00:00

Apache Tika 1.3 发布,内容抽取的工具集合

Apache Tika 1.3 发布了,该版本详细的改进记录请看发行说明。 源码下载地址: apache-tika-1.3-src.zip Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。...

3
23
发表了资讯
2012/07/17 00:00

Apache Tika 1.2 发布,内容抽取框架

Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。 Apache Tika 1.2 版本主要改进内容请看 http://www.apache.org/dist/tika/CHANGES-1.2.txt...

4
4
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
2019/04/04 14:53

【错误】Tika错误

tika error NoSuchMethodError: org.apache.commons.compress.archivers.ArchiveStreamFactory.detect 其他依赖中commons-compress版本过低,可以尝试将其替换到最新版本。 <!-- https://mvnrepository.com/art......

0
0
发表于DevOps专区
2018/12/31 00:46

Apache Tika 1.20发布

Apache Tika™工具包可从超过一千种不同的文件类型(如PPT,XLS和PDF)中检测和提取元数据和文本。所有这些文件类型都可以通过单一界面进行解析,使Tika对搜索引擎索引,内容分析,翻译等非常有用。 解析方法将文...

0
1
发表了博客
2019/09/27 14:44

Tika检测文件类型

Tika类型检测 Tika支持MIME所提供的所有互联网媒体文件类型。每当一个文件通过Tika检测到该文件,其文件类型。检测的介质类型,Tika内部通过以下机制。 MIME标准 多用途Internet邮件扩展(MIME)标准,用于识别文件类型的最佳标准。这些标准的知识有助于在内部相互作用的浏览器。 当浏览器遇到一个媒体文件,它选择可用它来...

0
0
发表于开发技能专区
2014/07/22 22:32

tika获取压缩文件内容

package com.wangchao.tika.sax; import org.xml.sax.Attributes; import org.xml.sax.SAXException; import org.xml.sax.helpers.DefaultHandler; public class MyHandler extends DefaultHandler { @Override public void characters(char[] ch, int start, int length) throws SAXException { String content = new S...

0
3
发表于AI & 大数据专区
2018/06/29 12:36

tika解析加密的office文件

use Tika(https://tika.apache.org) to detect file MME type and check whether it's correct type for specific file extension. For internal minetype/file extension not covered by Tika, we could configu......

0
0
发表了博客
2019/09/26 16:26

Tika提取文件元数据

Tika可以从文件中提取元数据。 什么是元数据: 元数据是文件所提供的的附件信息即文件的属性。   word文档的元数据:    Tika提取元数据: 我们可以使用文件parse()方法提取元数据,传递一个空的元数据对象作为一个参数。这种方法提取指定的文件的元数据(如果该文件中包含有),并将它们放置在元数据对象。因此,在使...

0
0
发表了博客
2019/12/10 08:53

使用apache.tika判断文件类型

一. 判断文件类型一般可采用两种方式   1. 后缀名判断     简单易操作,但无法准确判断类型   2. 文件头信息判断     通常可以判断文件类型,但有些文件类型无法判断(如word和excel头信息的前几个字节是一样的,无法判断)   3. 使用apache.tika可轻松解决以上两种方式存在的问题 二. 使用方式   1. ma...

0
0
发表了博客
2019/09/20 11:53

apache tika检测文件是否损坏

Apache Tika用于文件类型检测和从各种格式的文件内容提取的库。 将上传文件至服务器,进行解析文件时,经常需要判断文件是否损坏。我们可以使用tika来检测文件是否损坏 maven引入如下: <dependency> <groupId>org.apache.tika</groupId> <artifactId>tika-app</artifactId> <version>1.18</version> </depe...

0
0
发表于开发技能专区
2014/07/21 23:08

tika入门--获得文档内容和元数据

package com.wangchao.tika.demo; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.io.Reader; import org.apache.tika.Tika; import org.apache.tika.metadata.Metadata; import org.apache.tik...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了问答
2015/06/19 21:17

Tika 如何解决大文件问题

各位大神: 我很想知道,你们是如何解决大文件的内容提取的,一个500M的文件,难道Tika也可parse?他不会内存溢出?不知道,你们是如何规避这个问题的,在线等............

2
0
发表了问答
2016/09/02 12:03

tika抽取docx格式的文件时找不到类

tika抽取docx格式的文件时找不到类 java.lang.NoClassDefFoundError: org/openxmlformats/schemas/wordprocessingml/x2006/main/CTCustomXmlBlock at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.Class.privateGetDeclaredMethods(Class.java:2436) at java.lang.Class.getDeclaredMethods(Class....

1
0
发表了问答
2013/09/12 17:30

NUTCH公开课:从搜索引擎到网络爬虫

课程背景:Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。在Nutch的进化过程中,产生了Hadoop、Tika和Gora三个J...

1
14
发表了问答
2014/03/07 10:00

tika解析文档异常

当我解析word文档时,调用方法parse()的时候,出现异常Exception in thread "main" java.lang.NoSuchFieldError: SMALLER_BIG_BLOCK_SIZE_DETAILS at org.apache.poi.poifs.filesystem.NPOIFSFileSystem.<init>(NPOIFSFileSystem.java:93) at org.apache.poi.poifs.filesystem.NPOIFSFileSystem.<init>(NPOIFSFileSyste...

2
0
发表了问答
2015/06/24 15:15

tika-app linux 环境下无法运行

各位: Tika官网中有两个jar,tika-app 和 tika-server , 敢问,为什么tika-app 在Linux运行不了,然而可以在windows下运行; tika-app 和 tika-server 具体有什么区别呢?个人感觉就是 tika-server 包要大一些。

1
0
发表了问答
2015/08/19 11:20

Tika解析文件内容如何优化?

最近正在学习搭建一个全文检索服务器遇到了一个棘手的问题,准备将客户的办公文件导入到服务器内,使用Tika解析文件内容时发现非常耗时,文件大概有十万多个,使用Tika解析的代码如下: Metadata metadata = new Metadata(); BodyContentHandler handler = new BodyContentHandler(writeLimit); BodyContentHandler hand...

1
0
发表了问答
2014/11/28 16:53

Nutch爬取文件内容

请问一下大神们,nutch可以爬取网站中的word文档内容吗? 比如网站中一个提供了文档链接的那种。

3
0
发表了问答
2013/11/29 11:06

怎样判断一个word 或者pdf文件内容是中文还是英文,使用tika获得文本

如题,怎样判断一个word 或者pdf文件内容是中文还是英文,使用tika获得文本 String str=tika.parseToString(new File(strFilePath)); 获得到一个字符串,如何判断是中文的还是英文的呢!

3
0
发表了问答
2010/07/13 23:19

用 Apache Tika 理解信息内容

随着计算机使用的日益普及以及互联网的无处不在,现在有各种语言的大量信息可为人所用。自动信息处理和检索也越来越需要理解跨文化、语言和大洲的内容。最 近的一个 Apache 软件项目 Tika 是旨在实现内容理解的一个很重要的工具。 简介 在本教程中,我们将通过解释性的例子介绍 Apache Tika 框架并解释它的概念(比如 N-...

2
9
发表了问答
2010/10/17 22:46

帮我看看,这个地址能打开不?

http://tika.apache.org 是河XIE的问题,还是什么问题?

8
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
4 评论
394 收藏
分享
返回顶部
顶部