Python PDF 解析器 PDFMiner

MIT
Python
跨平台
2017-03-02
王练

PDFMiner 是一个 Python 的 PDF 解析器,可以从 PDF 文档中提取信息。与其他 PDF 相关的工具不同,它侧重的是获取和分析文本数据。PDFMiner 允许获取某一页中文本的准确位置和一些诸如字体、行数的信息。它包括一个 PDF 转换器,可以把 PDF 文件转换成 HTML 等格式。还有一个扩展的 PDF 解析器,可以用于除文本分析以外的其他用途。

特性

  • 完全用 Python 编写

  • 解析、分析和转换 PDF 文档

  • PDF-1.7 规范支持

  • CJK 语言和垂直书写脚本支持

  • 支持各种字体类型(Type1、TrueType、Type3 和 CID)

  • 基本加密(RC4)支持

  • 大纲(TOC)提取

  • 标记内容提取

  • 自动布局分析

PDFMiner 内置两个工具:pdf2txt.py 和 dumppdf.py:

pdf2txt.py 从 PDF 文件中提取所有文本内容。但不能识别画成图片的文本,这需要特征识别。对于加密的 PDF 你需要提供一个密码才能解析,对于没有提取权限的 PDF 文档你得不到任何文本。

dumppdf.py 把 PDF 文件内容变成 pseudo-XML 格式。这个程序主要用于 debug ,但是它也可能用于提取一些有意义的内容(比如图片)。

加载中
请先登录后再评论。

暂无资讯

2
回答
Python PDFminer读取PDF内容速度慢是怎么回事?如何解决?
H__python 的回答 2017/09/29 15:45
最佳答案
在一个月后的今天,把这个问题解决了。换掉了这个三方库,使用的XPD来读取PDF,速度比这个快太多了。

没有更多内容

加载失败,请刷新页面

没有更多内容

pdfminer获取每页的layout

#! python2 # coding: utf-8 import sys from pdfminer import pdfparser from pdfminer import pdfdocument from pdfminer import pdfinterp from pdfminer import pdfpage from...

2018/07/12 10:37
7
0
pdfminer批量处理PDF文件

from pdfminer.pdfparser import PDFParser, PDFDocument from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowed from pdfminer.converter ...

2019/11/28 10:00
11
0
pdfminer import报错解决方法

from pdfminer.pdfparser import PDFParser, PDFDocument from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfdevice import PDFDevice ImportError:...

2018/04/27 16:39
32
0
pdfminer实现pdf布局分析 python (pdfminer realize layout analysis with PDF python)

使用pdfminer实现pdf文件的布局分析 python 参考资料: https://github.com/euske/pdfminer https://stackoverflow.com/questions/22898145/how-to-extract-text-and-text-coordinates-from...

2019/12/12 15:19
3
0
python3安装pdfminer并使用

1.python3不同与2版本不能使用pdfminer pip install pdfminer3k 2.使用pdfminer解析相应文档并保存到相应的文件夹中 # encoding : udf-8 """ 解析pdf文本保存到txt文件中 """ from p...

2019/09/08 22:39
23
0
Python使用pdfminer解析PDF【python】

1.Python使用pdfminer解析PDF教程 https://blog.csdn.net/shao824714565/article/details/84792089 2.pdfminer各个时间版本下载地址 https://pypi.doubanio.com/simple/pdfminer/......

05/14 15:56
26
0
PDFMiner(搬运, 文章末尾有我写的PDFMiner3K使用实例)

[TOC] PDFMiner 原文地址 | PDFMiner官网 <font color = "red">注意: </font>PDFMiner和PDFMiner3K是不同的。详情请问度娘。 Overview PDF is evil. Although it is called a PDF "document"...

01/28 18:10
210
0
Python对pdf中的关键字过滤(pdfminer3k或pdfminer使用)

最近在实习,老板一下子发给了我120份研报,然而很多都是没用的。聪明的大脑一定要想办法让电脑帮助自己完成简单的工作! 下面是Python筛选含有“”丙烯“”关键字的程序,由于文件的保密性只...

2019/06/12 17:08
71
0
Python:解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及对比

pdf 是个异常坑爹的东西,有很多处理 pdf 的库,但是没有完美的。 一、pdfminer3k pdfminer3k 是 pdfminer 的 python3 版本,主要用于读取 pdf 中的文本。 网上有很多 pdfminer3k 的代码示例...

2019/07/29 15:18
69
0
用于将PDF转换为文本的Python模块[关闭]

哪些是将PDF文件转换为文本的最佳Python模块? #1楼 该PDFMiner包已经改变,因为codeape公布。 编辑(再次): PDFMiner已在版本20100213再次更新 您可以使用以下内容检查已安装的版本: >>...

02/16 21:19
207
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部