pdf.tocgen 是一个能够为 PDF 自动生成目录的开源命令行工具集,由 pdfxmeta、pdftocgen、pdftocio 三个工具组成。
in.pdf
|
|
+----------------------+--------------------+
| | |
V V V
+----------+ +-----------+ +----------+
| | recipe | | ToC | |
| pdfxmeta +--------->| pdftocgen +-------->| pdftocio +---> out.pdf
| | | | | |
+----------+ +-----------+ +----------+
上图展示了 pdf.tocgen 的运行过程,in.pdf 是没有目录的原始 pdf 文件,out.pdf 是经过工具处理后增加了目录的新文件。
pdf.tocgen 的原理是 PDF 中的「标题」与「正文」的格式一般是不一样的。同样,标题的不同层级格式一般也不一样,pdf.tocgen 提供了一套工具来利用这种差异半自动地生成目录。
此工具集由三个软件组成
- pdfxmeta 利用文字来查找对应的格式信息
- pdftocgen 利用 pdfxmeta 输出的格式信息生成目录的描述
- pdftocio 利用 pdftocgen 生成的目录描述为原始 pdf 增加目录并输出新的 pdf 文件
评论