请问有什么可以将PDF转换成HTML的开源工具推荐的?

文小杰 发布于 2018/06/23 09:48
阅读 906
收藏 0

想要将PDF转成标签语义比较明确的HTML页面,目前找到的开源框架PDFBox和iText都只支持对划定坐标区域的表格进行识别转换而不能自动识别,因为PDF文件格式不一,坐标区域不确定,所以这种方案不行。而pdf2htmlEX这个开源项目,转换成的HTML页面虽然看起来格式是跟原来的PDF文件最相似的,但是他的表格那些都是通过背景图片的形式呈现,也就无法实现后续通过程序提取表格标题和内容的需求。所以想问问有什么好的其他的开源项目推荐,或者关于这个几个开源项目我没接触到的特殊的功能可以实现解析格式这个需求的。

加载中
0
kakai
kakai

技术跟不上需求就直接pass掉,或者简化、删减功能。再或者就是另谋他法

文小杰
文小杰
回复 @节节草 : o(╥﹏╥)o
kakai
kakai
回复 @文小杰 : 那就把需求人员拖过来,用鞭子使劲抽
文小杰
文小杰
想哭o(╥﹏╥)o需求不是我定的
0
文小杰
文小杰

另外PDF.js也是一样没法做到内容格式识别

0
凉茶未凉
凉茶未凉

HTML转PDF技术比较成熟,反过来,就比较难了

文小杰
文小杰
是这样没错
0
aniuzeng
aniuzeng
pdf有多种格式,比如图片格式的,怎么转化成html?用图像识别搞一下?现在的技术貌似难以实现,html转pdf还是很容易的,iText就可以弄
文小杰
文小杰
不考虑扫描版本的,只考虑文字可复制的版本的。主要是需要分析提取数据
返回顶部
顶部