zdocument text 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
zdocument text 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
zdocument text 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 GPL
开发语言 C/C++
操作系统 跨平台
软件类型 开源软件
开源组织
地区 不详
投 递 者 linuxmail_cn
适用人群 未知
收录时间 2020-12-15

软件简介

zdocument_text 是一个文档解析库。主要用于解开各类压缩包,解析各类文档为文本和资源(主要是图片),解出的文本不关注样式。适用于机器学习,分词等,不适合展示。

背景

  • 在邮件反垃圾系统中, 需要解析附件(文档,压缩包,图片), 获取文本, 获取文件类型

支持的压缩包类型

  • z, 7z, gz, tar, tgz, zip/arj/zipx, rar/lzh,

支持的文档类型

  • doc/dot/wps/wpt, ppt/pps/dpt/dps, xls/xlt/ett/et
  • docx/docm/dotx, pptx/pptm, xlsx/xlsm
  • odt, odp, ods
  • xmldoc, xmlxls
  • rtf
  • pdf
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击加入讨论🔥(2)
暂无内容
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
2 评论
2 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部