Apache Tika

软件主页
关注
Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来...
加载中
1
回答
tika抽取docx格式的文件时找不到类

tika抽取docx格式的文件时找不到类 java.lang.NoClassDefFoundError: org/openxmlformats/schem...

2016/09/02 12:03
1
回答
NUTCH公开课:从搜索引擎到网络爬虫

课程背景:Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演...

2013/09/12 17:30
2
回答
tika解析文档异常

当我解析word文档时,调用方法parse()的时候,出现异常Exception in thread "main" java.lang.NoSuchFie...

2014/03/07 10:00
1
回答
tika-app linux 环境下无法运行
learn_more 的回答 2015/08/26 09:54
最佳答案
tika-app 是客户端包,里面调用了GUI相关的组件,所以如果你在服务器Linux环境下是不可能运行的; tika-server 是服务端包,包含了大量解析文档的第三方jar,不过在大也会有问题,我在解析文件的时候就会抛出一个 ClassNotDefindedError , 对于这个问题,...
1
回答
Tika解析文件内容如何优化?
learn_more 的回答 2015/08/19 16:26
最佳答案
那就使用异步解析,搞一个线程池,让他放在那解析。对于性能的话,我一般使用 new Tika().parse ; 好像官网建议是如果你知道文档的类型,你们有必要在初始化Tika的时候告诉他为这个文档类型,你们免去了Tika去自动识别类型的时间。 都是个人建议,仅供参考
1
回答
Tika 如何解决大文件问题

各位大神: 我很想知道,你们是如何解决大文件的内容提取的,一个500M的文件,难道Tika也可parse?他不会内存溢出?不知道,你们是如何规避这个问题的...

2015/06/19 21:17
3
回答
Nutch爬取文件内容

请问一下大神们,nutch可以爬取网站中的word文档内容吗? 比如网站中一个提供了文档链接的那种。

2014/11/28 16:53
3
回答
怎样判断一个word 或者pdf文件内容是中文还是英文,使用tika获得文本

如题,怎样判断一个word 或者pdf文件内容是中文还是英文,使用tika获得文本 String str=tika.parseToString(new F...

2013/11/29 11:06
2
回答
用 Apache Tika 理解信息内容

随着计算机使用的日益普及以及互联网的无处不在,现在有各种语言的大量信息可为人所用。自动信息处理和检索也越来越需要理解跨文化、语言和大洲的内容。最 近的一个...

2010/07/13 23:19
8
回答
帮我看看,这个地址能打开不?

http://tika.apache.org 是河XIE的问题,还是什么问题?

2010/10/17 22:46

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部