Python PDF 解析器 PDFMiner

MIT
Python
跨平台
2017-03-02
王练

PDFMiner 是一个 Python 的 PDF 解析器,可以从 PDF 文档中提取信息。与其他 PDF 相关的工具不同,它侧重的是获取和分析文本数据。PDFMiner 允许获取某一页中文本的准确位置和一些诸如字体、行数的信息。它包括一个 PDF 转换器,可以把 PDF 文件转换成 HTML 等格式。还有一个扩展的 PDF 解析器,可以用于除文本分析以外的其他用途。

特性

  • 完全用 Python 编写

  • 解析、分析和转换 PDF 文档

  • PDF-1.7 规范支持

  • CJK 语言和垂直书写脚本支持

  • 支持各种字体类型(Type1、TrueType、Type3 和 CID)

  • 基本加密(RC4)支持

  • 大纲(TOC)提取

  • 标记内容提取

  • 自动布局分析

PDFMiner 内置两个工具:pdf2txt.py 和 dumppdf.py:

pdf2txt.py 从 PDF 文件中提取所有文本内容。但不能识别画成图片的文本,这需要特征识别。对于加密的 PDF 你需要提供一个密码才能解析,对于没有提取权限的 PDF 文档你得不到任何文本。

dumppdf.py 把 PDF 文件内容变成 pseudo-XML 格式。这个程序主要用于 debug ,但是它也可能用于提取一些有意义的内容(比如图片)。

加载中

评论(0)

暂无评论

暂无资讯

2
回答
Python PDFminer读取PDF内容速度慢是怎么回事?如何解决?
H__python 的回答 2017/09/29 15:45
最佳答案
在一个月后的今天,把这个问题解决了。换掉了这个三方库,使用的XPD来读取PDF,速度比这个快太多了。

没有更多内容

加载失败,请刷新页面

没有更多内容

install server

install server Ubuntu 1604 root 权限操作 sudo add-apt-repository ppa:nijel/phpmyadmin apt update apt upgrade apt install mysql-server phpmyadmin php-curl unoconv imagemagick lan...

2018/04/21 11:20
6
0
数据分析遇到PDF文本,怎么用Python批量提取内容

本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来,并且整理存储到数据框中,以便于后续的数据分析。 问题 最近,读者们在后台的留言,愈发五花八门了。 写了几篇关于自然语言...

2018/10/31 15:14
29
0
ImportError: cannot import name process_pdf 解决方法

Traceback (most recent call last): File "pdf2txt.py", line 1, in <module> from pdfminer.pdfinterp import PDFResourceManager, process_pdf ImportError: cannot import name process_...

2016/05/19 11:45
380
2
156个Python网络爬虫资源,GitHub上awesome系列之Python爬虫工具

项目地址:lorien/awesome-web-scraping GitHub上awesome系列之Python的爬虫工具。 本列表包含Python网页抓取和数据处理相关的库。 网络相关 通用 urllib - 网络库(标准库) requests - 网络库...

2018/07/02 14:58
30
0
Python 爬虫的工具列表

这个列表包含与网页抓取和数据处理的Python库 网络 通用 urllib -网络库(stdlib)。 requests -网络库。 grab – 网络库(基于pycurl)。 pycurl – 网络库(绑定libcurl)。 urllib3 – Pyth...

2017/10/26 11:38
43
0
Python学习干货 史上最全的 Python 爬虫工具列表大全

来源:马哥教育 链接:https://mp.weixin.qq.com/s/UkXT20Oko6oYbeo7zavCNA 这个列表包含与网页抓取和数据处理的Python库。 网络 通用 urllib -网络库(stdlib)。 requests -网络库。 grab –...

2018/08/02 22:34
13
0
爬虫体系

这里分享一个比较全面的爬虫体系,可供参考和快速学习爬虫。 1、网络 通用 urllib -网络库(stdlib)。 requests -网络库。 grab – 网络库(基于pycurl)。 pycurl – 网络库(绑定libcurl)。...

2018/12/11 16:00
3
0
网络数据采集-读取文档

本次主要介绍爬虫读取纯文本,PDF,图像,视频,邮件等文件,以及如何把文件下载到指定的文件夹,读取并提取数据,介绍文档的不同编码类型,让程序可以读取非英文的html页面。 文档编码是告诉...

2016/05/10 23:17
140
2

没有更多内容

加载失败,请刷新页面

返回顶部
顶部