Paperify 可将任何文档、网页或电子书转化为研究论文。
生成的论文文本与原始文档文本相同,但其中会穿插来自真实论文的图表和方程式。
你还可以添加论文标题和摘要(如果你提供 API 密钥,还可以选择由 ChatGPT 生成),整篇论文将使用 IEEE模板进行编译,以增加真实性。
Usage
usage: paperify [OPTIONS] <URL or path> <output file>
OPTIONS:
--temp-dir <DIR> Directory for assets (default: /tmp/paperify)
--from-format <FORMAT> Format of input file (default: input suffix)
--arxiv-category <CAT> arXiv.org paper category (default: math)
--num-papers <NUM> Number of papers to download (default: 100)
--max-parallelism <PROCS> Maximum simultaneous processes (default: 32)
--figure-frequency <N> Chance of a figure is 1/N per paragraph (default: 25)
--equation-frequency <N> Chance of an equation is 1/N per paragraph (default: 25)
--max-size <BYTES> Max allowed image size in bytes (default 2500000)
--min-equation-length <N> Minimum equation length in characters (default 5)
--max-equation-length <N> Maximum equation length in characters (default 120)
--min-caption-length <N> Minimum figure caption length in characters (default 20)
--chatgpt-token <TOKEN> ChatGPT token to generate paper title, abstract, etc.
--chatgpt-topic <TOPIC> Paper topic ChatGPT will generate metadta for
--quiet Don't log statuses
--skip-downloading Don't download papers from arXiv.org
--skip-extracting Don't extract equations and captions
--skip-metadata Don't regenerate metadata
--skip-filtering Don't filter out large files or non-diagram images
已知的问题
- 某些网页的 src URL 中包含查询参数的图片会被 Pandoc 以文件名中的查询参数提取出来,而 LaTeX 在编译时会出现 "未知文件扩展名 "的错误。
- 论文中可能包含非图表的图片,如作者肖像或机构徽标。如果存在转换命令行工具,Paperify 会使用一种非常不完善的启发式方法来移除这些图片:只保留左上角和右下角有白色、近白色或透明像素的图片。这种方法的效果出奇的好,但总会有一些误报和漏报。
- pdflatex 无法处理非 ASCII Unicode 字符,在编译 PDF 之前会将其去除。
- Paperify 在将文档转换为 LaTeX 之前,使用 Markdown 作为(有目的的)有损中间表示法。因此,原始文件中的信息和样式可能会被剥离。
- 少数论文包含大量图片。这样做的论文往往也有一些最差的图片。可以从 /tmp/paperify/images 目录中手动删除图片,使用 --skip-* 标志重新运行同一命令,使用新的数字和公式重建论文。
- 不同的系统安装不同的 LaTeX 软件包。如果你缺少软件包,不妨咬咬牙用 apt 安装 texlive-full。它非常大,但里面有你需要的一切。
- 图表标题通常与图表本身无关。
- 无论一篇论文看起来多么有说服力,任何回头看、真正读到其中文字的人都会很快知道有些事情不对劲。
- 阅读代码的副作用包括恶心、头晕、混乱、眼睛流血以及对 Unix pipelines 的创建者深深的爱/恨。
评论