Any2Excel 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
Any2Excel 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
Any2Excel 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 MIT
开发语言 Python 查看源码 »
操作系统 跨平台
软件类型 开源软件
开源组织
地区 国产
投 递 者 Alias_Travis
适用人群 未知
收录时间 2021-01-25

软件简介

Any2Excel 是一款使用 Python 编写的图像内表格数据提取工具,可以高效识别 PDF 原件、扫描件、复印件、彩色(黑白)照片、截图内的数据表格,提取后转为 Excel 文件输出。

这是一款开源工具,我给它取名叫Any2Excel。顾名思义,往后的目标就是提取任意格式文件中的数据图表到可被结构化处理的 Excel 文件。

识别度高,操作简单,使用场景广泛。

支持手机拍照、扫描件、原件、复印件等等。

快速开始

Python PIP 依赖

pip install -r .\requirements.txt

外部依赖

poppler 安装后将其bin路径加入系统变量中

配置腾讯云

cp config+sample.yml config.yml后补全config.yml中的配置信息。

工作原理

  • 将 PDF 按每页转为 JPG 图像文件

  • 暂时只取 PDF 第一页内容

  • 提交 OCR 识别这个图像文件

  • 将识别结果转为 Excel 导出

  • 清除 Excel 文件的全部样式

命令行(CLI)

PDF 转 Excel

cd PDF2Excel
python3 pdf2excel.py test.pdf

图片 转 Excel

cd PDF2Excel
python3 image2excel.py capture.jpg

可视化拖拽

将需要转换的 PDF 文件/图片文件,拖拽到程序上就会自动执行

输出文件

*.xlsx 包含了样式的 Excel 文件,可能会因为样式过多而文件过大。

*.xls 移除了样式的 Excel 文件,推荐。

配置

config.yml 内包含了腾讯云的相关鉴权信息

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击引领话题📣 发布并加入讨论🔥
暂无内容
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
0 评论
7 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部