请问有什么可以将PDF转换成HTML的开源工具推荐的?

文小杰 发布于 2018/06/23 09:48
阅读 1K+
收藏 0

【开源中国 APP 全新上线】“动弹” 回归、集成大模型对话、畅读技术报告”

想要将PDF转成标签语义比较明确的HTML页面,目前找到的开源框架PDFBox和iText都只支持对划定坐标区域的表格进行识别转换而不能自动识别,因为PDF文件格式不一,坐标区域不确定,所以这种方案不行。而pdf2htmlEX这个开源项目,转换成的HTML页面虽然看起来格式是跟原来的PDF文件最相似的,但是他的表格那些都是通过背景图片的形式呈现,也就无法实现后续通过程序提取表格标题和内容的需求。所以想问问有什么好的其他的开源项目推荐,或者关于这个几个开源项目我没接触到的特殊的功能可以实现解析格式这个需求的。

加载中
0
kakai
kakai

技术跟不上需求就直接pass掉,或者简化、删减功能。再或者就是另谋他法

文小杰
文小杰
回复 @节节草 : o(╥﹏╥)o
kakai
kakai
回复 @文小杰 : 那就把需求人员拖过来,用鞭子使劲抽
文小杰
文小杰
想哭o(╥﹏╥)o需求不是我定的
0
文小杰
文小杰

另外PDF.js也是一样没法做到内容格式识别

0
凉茶未凉
凉茶未凉

HTML转PDF技术比较成熟,反过来,就比较难了

文小杰
文小杰
是这样没错
0
aniuzeng
aniuzeng
pdf有多种格式,比如图片格式的,怎么转化成html?用图像识别搞一下?现在的技术貌似难以实现,html转pdf还是很容易的,iText就可以弄
文小杰
文小杰
不考虑扫描版本的,只考虑文字可复制的版本的。主要是需要分析提取数据
0
osc_38527084
osc_38527084

我最近也在处理这些事情  Adobe 手动转出来的效果 接口和SDK库还是没有。后来测试了PDFix 收费的效果其次。

今天的大多数 PDF 文档都是非结构化的,没有很好地标记或根本没有标记。PDFix 使您能够自动重新发现丢失的结构。在包括机器学习在内的先进技术的支持下,我们能够检测逻辑元素,如段落、标题、图像、表格、列表、页眉/页脚、目录等。

OSCHINA
登录后可查看更多优质内容
返回顶部
顶部