【开源中国 APP 全新上线】“动弹” 回归、集成大模型对话、畅读技术报告”
想要将PDF转成标签语义比较明确的HTML页面,目前找到的开源框架PDFBox和iText都只支持对划定坐标区域的表格进行识别转换而不能自动识别,因为PDF文件格式不一,坐标区域不确定,所以这种方案不行。而pdf2htmlEX这个开源项目,转换成的HTML页面虽然看起来格式是跟原来的PDF文件最相似的,但是他的表格那些都是通过背景图片的形式呈现,也就无法实现后续通过程序提取表格标题和内容的需求。所以想问问有什么好的其他的开源项目推荐,或者关于这个几个开源项目我没接触到的特殊的功能可以实现解析格式这个需求的。
技术跟不上需求就直接pass掉,或者简化、删减功能。再或者就是另谋他法
另外PDF.js也是一样没法做到内容格式识别
HTML转PDF技术比较成熟,反过来,就比较难了
我最近也在处理这些事情 Adobe 手动转出来的效果 接口和SDK库还是没有。后来测试了PDFix 收费的效果其次。
今天的大多数 PDF 文档都是非结构化的,没有很好地标记或根本没有标记。PDFix 使您能够自动重新发现丢失的结构。在包括机器学习在内的先进技术的支持下,我们能够检测逻辑元素,如段落、标题、图像、表格、列表、页眉/页脚、目录等。