Apache Tika 1.16 发布 ,内容抽取工具集合

达尔文
 达尔文
发布于 2017年07月13日
收藏 32

Apache Tika 1.16 发布了,Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了 POI 和 Pdfbox,并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩展 API,用来丰富其对第三方文件格式的支持。

部分更新内容如下:

  • Exclude jj2000 from edu.ucar grip to avoid potential 

    license conflicts with ASL 2.0


  • Add Age recognition using Ensemble model for Linear regression 

    and Apache OpenNLP Maximum Entropy. Tika can now detect age from 

    text (TIKA-1988).


  • Add Tika Deep Learning support for the VGG16 model for 

    Very Deep Convolutional Networks for Large-Scale Image Recognition.

  • Now Tika supports both Inception v3/v4 and VGG16 based image 

    recognition (TIKA-2298).

  • Extract macros from PPT (TIKA-2089).

完整内容

下载地址:

>>>【评论有礼】7月10日-31日在下方评论资讯,即有机会获得 9 活跃积分和开源中国实物周边。活动详情

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:Apache Tika 1.16 发布 ,内容抽取工具集合
加载中
返回顶部
顶部