内容抽取工具集合 Apache Tika

内容抽取工具集合 Apache Tika

Apache
Java
跨平台
Apache
2009-05-07
红薯

Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。

在当前的0.2-SNAPSHOT版本中, Tika提供了对如下文件格式的支持:

  • PDF - 通过Pdfbox

  • MS-* - 通过POI

  • HTML - 使用nekohtml将不规范的html整理成为xhtml

  • OpenOffice 格式 - Tika提供

  • Archive - zip, tar, gzip, bzip等

  • RTF - Tika提供

  • Java class - Class解析由ASM完成

  • Image - 只支持图像的元数据抽取

  • XML

Tika的API十分便捷,核心是Parser interface,其中定义了一个parse方法:
public void parse(InputStream stream, ContentHandler handler, Metadata metadata)
用stream参数传递需要解析的文件流, 文本内容会被传入handler,而元数据会更新至metadata。

可以使用Tika的ParserUtils工具来根据文件的mime-type来得到一个适当的Parser来进行解析工作。或者Tika还提供了一个AutoDetectParser根据不同的二进制文件的特殊格式 (比如说Magic Code),来寻找适合的Parser。

加载中

评论(4)

逝影落枫
逝影落枫
谁有例子。 #Apache Tika#
肖启霖
肖启霖
@红薯 Tika的软件文档链接地址失效了。 Apache Tika

Apache Tika 1.20 发布,内容抽取工具集合

Apache Tika 1.20 已发布,Tika 是一个内容抽取的工具集合 (a toolkit for text extracting) 。它集成了 POI 和 Pdfbox,并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的...

2018/12/24 07:12

Apache Tika 1.19.1 发布,内容抽取工具集合

Apache Tika 1.19.1 已发布,Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了 POI 和 Pdfbox,并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的...

2018/10/10 07:27

Apache Tika 1.19 发布,内容抽取工具集合

Apache Tika 1.19 发布了,Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了 POI 和 Pdfbox,并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩...

2018/09/23 08:14

Apache Tika 1.18 发布,内容抽取工具集合

Apache Tika 1.18 已发布,Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了 POI 和 Pdfbox,并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩...

2018/04/26 07:31

Apache Tika 1.17 发布 ,内容抽取工具集合

Apache Tika 1.7 发布了,Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了 POI 和 Pdfbox,并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩...

2017/12/15 07:42

Apache Tika 1.16 发布 ,内容抽取工具集合

Apache Tika 1.16 发布了,Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了 POI 和 Pdfbox,并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩...

2017/07/13 07:24

Apache Tika 1.15 发布 ,内容抽取工具集合

Apache Tika 1.15 发布了,该版本包含许多改进和错误修复。新发布的版本已推送到 Apache 发布网站以及 Maven Central。 Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集...

2017/05/31 07:07

Apache Tika 1.14 发布 ,内容抽取工具集合

Apache Tika 1.14 发布了,该版本包含了一些改进和 Bug 修复。Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了 POI, Pdfbox 并且为文本抽取工作提供了一个统一的界...

2016/11/11 08:29

Apache Tika 1.13 发布 ,内容抽取工具集合

Apache Tika 1.13 发布了,更新如下: Upgrade to PDFBox 2.0.1 (TIKA-1285/TIKA-1959). PDFParser中的主要更新 The classic sequential parser is no longer available. Tiff files are no ...

2016/05/17 07:00

Apache Tika 1.12 发布,内容抽取工具

Apache Tika 1.12 发布,Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,...

2016/02/16 07:57

没有更多内容

加载失败,请刷新页面

1
回答
tika抽取docx格式的文件时找不到类

tika抽取docx格式的文件时找不到类 java.lang.NoClassDefFoundError: org/openxmlformats/schem...

2016/09/02 12:03
1
回答
NUTCH公开课:从搜索引擎到网络爬虫

课程背景:Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演...

2013/09/12 17:30
2
回答
tika解析文档异常

当我解析word文档时,调用方法parse()的时候,出现异常Exception in thread "main" java.lang.NoSuchFie...

2014/03/07 10:00
1
回答
tika-app linux 环境下无法运行
learn_more 的回答 2015/08/26 09:54
最佳答案
tika-app 是客户端包,里面调用了GUI相关的组件,所以如果你在服务器Linux环境下是不可能运行的; tika-server 是服务端包,包含了大量解析文档的第三方jar,不过在大也会有问题,我在解析文件的时候就会抛出一个 ClassNotDefindedError , 对于这个问题,...
1
回答
Tika解析文件内容如何优化?
learn_more 的回答 2015/08/19 16:26
最佳答案
那就使用异步解析,搞一个线程池,让他放在那解析。对于性能的话,我一般使用 new Tika().parse ; 好像官网建议是如果你知道文档的类型,你们有必要在初始化Tika的时候告诉他为这个文档类型,你们免去了Tika去自动识别类型的时间。 都是个人建议,仅供参考
1
回答
Tika 如何解决大文件问题

各位大神: 我很想知道,你们是如何解决大文件的内容提取的,一个500M的文件,难道Tika也可parse?他不会内存溢出?不知道,你们是如何规避这个问题的...

2015/06/19 21:17
3
回答
Nutch爬取文件内容

请问一下大神们,nutch可以爬取网站中的word文档内容吗? 比如网站中一个提供了文档链接的那种。

2014/11/28 16:53
3
回答
怎样判断一个word 或者pdf文件内容是中文还是英文,使用tika获得文本

如题,怎样判断一个word 或者pdf文件内容是中文还是英文,使用tika获得文本 String str=tika.parseToString(new F...

2013/11/29 11:06
2
回答
用 Apache Tika 理解信息内容

随着计算机使用的日益普及以及互联网的无处不在,现在有各种语言的大量信息可为人所用。自动信息处理和检索也越来越需要理解跨文化、语言和大洲的内容。最 近的一个...

2010/07/13 23:19
8
回答
帮我看看,这个地址能打开不?

http://tika.apache.org 是河XIE的问题,还是什么问题?

2010/10/17 22:46

没有更多内容

加载失败,请刷新页面

Apache Tika 1.20发布

Apache Tika™工具包可从超过一千种不同的文件类型(如PPT,XLS和PDF)中检测和提取元数据和文本。所有这些文件类型都可以通过单一界面进行解析,使Tika对搜索引擎索引,内容分析,翻译等非常...

2018/12/31 00:46
9
0
tika解析加密的office文件

use Tika(https://tika.apache.org) to detect file MME type and check whether it's correct type for specific file extension. For internal minetype/file extension not covered by Ti...

2018/06/29 12:36
106
0
从Lucene到Elasticsearch:Lucene 文件检索项目实战

项目需求:: 构建一个类百度文库的小型文件检索系统 架构设计图:: 文件内容抽取: 内容解析提取工具:Tika 文件类型检测、文件内容提取的库 Lucene 子项目、java 写成 广泛应用于搜索引擎...

01/04 16:35
20
0
tika获取压缩文件内容

package com.wangchao.tika.sax; import org.xml.sax.Attributes; import org.xml.sax.SAXException; import org.xml.sax.helpers.DefaultHandler; public class MyHandler extends DefaultH...

2014/07/22 22:32
629
0
Apache Tika-内容解析提取工具集合(a content analysis toolkit)

Apache Tika toolkit可以自动检测各种文档(如word,ppt,xml,csv,ppt等)的类型并抽取文档的元数据和文本内容。Tika集成了现有的文档解析库,并提供统一的接口,使针对不同类型的文档进行解析变...

2014/08/21 17:39
1K
4
tika入门--获得文档内容和元数据

package com.wangchao.tika.demo; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOExcept...

2014/07/21 23:08
186
0
Get the Mime Type from a File

转载于:http://www.rgagnon.com/javadetails/java-0487.html 中文翻译:http://chinacheng.iteye.com/blog/857485 Using Java 7 Files.html#probeContentType import java.io.IOException; i...

2012/03/23 20:22
257
0
小菜学设计模式——外观模式

本文是在学习《大话设计模式》所做的笔记,主要是个人理解面向对象、面向接口编程的设计模式:外观模式

2015/06/10 13:00
140
1

没有更多内容

加载失败,请刷新页面

返回顶部
顶部