Paperify 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
Paperify 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
Paperify 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 MIT
开发语言 SHELL
操作系统 跨平台
软件类型 开源软件
开源组织
地区 不详
投 递 者 白开水不加糖
适用人群 未知
收录时间 2023-09-14

软件简介

Paperify 可将任何文档、网页或电子书转化为研究论文。

生成的论文文本与原始文档文本相同,但其中会穿插来自真实论文的图表和方程式。

你还可以添加论文标题和摘要(如果你提供 API 密钥,还可以选择由 ChatGPT 生成),整篇论文将使用 IEEE模板进行编译,以增加真实性。

Usage

usage: paperify [OPTIONS] <URL or path> <output file>

OPTIONS:
  --temp-dir <DIR>            Directory for assets (default: /tmp/paperify)
  --from-format <FORMAT>      Format of input file (default: input suffix)
  --arxiv-category <CAT>      arXiv.org paper category (default: math)
  --num-papers <NUM>          Number of papers to download (default: 100)
  --max-parallelism <PROCS>   Maximum simultaneous processes (default: 32)
  --figure-frequency <N>      Chance of a figure is 1/N per paragraph (default: 25)
  --equation-frequency <N>    Chance of an equation is 1/N per paragraph (default: 25)
  --max-size <BYTES>          Max allowed image size in bytes (default 2500000)
  --min-equation-length <N>   Minimum equation length in characters (default 5)
  --max-equation-length <N>   Maximum equation length in characters (default 120)
  --min-caption-length <N>    Minimum figure caption length in characters (default 20)
  --chatgpt-token <TOKEN>     ChatGPT token to generate paper title, abstract, etc.
  --chatgpt-topic <TOPIC>     Paper topic ChatGPT will generate metadta for
  --quiet                     Don't log statuses
  --skip-downloading          Don't download papers from arXiv.org
  --skip-extracting           Don't extract equations and captions
  --skip-metadata             Don't regenerate metadata
  --skip-filtering            Don't filter out large files or non-diagram images

已知的问题

  • 某些网页的 src URL 中包含查询参数的图片会被 Pandoc 以文件名中的查询参数提取出来,而 LaTeX 在编译时会出现 "未知文件扩展名 "的错误。
  • 论文中可能包含非图表的图片,如作者肖像或机构徽标。如果存在转换命令行工具,Paperify 会使用一种非常不完善的启发式方法来移除这些图片:只保留左上角和右下角有白色、近白色或透明像素的图片。这种方法的效果出奇的好,但总会有一些误报和漏报。
  • pdflatex 无法处理非 ASCII Unicode 字符,在编译 PDF 之前会将其去除。
  • Paperify 在将文档转换为 LaTeX 之前,使用 Markdown 作为(有目的的)有损中间表示法。因此,原始文件中的信息和样式可能会被剥离。
  • 少数论文包含大量图片。这样做的论文往往也有一些最差的图片。可以从 /tmp/paperify/images 目录中手动删除图片,使用 --skip-* 标志重新运行同一命令,使用新的数字和公式重建论文。
  • 不同的系统安装不同的 LaTeX 软件包。如果你缺少软件包,不妨咬咬牙用 apt 安装 texlive-full。它非常大,但里面有你需要的一切。
  • 图表标题通常与图表本身无关。
  • 无论一篇论文看起来多么有说服力,任何回头看、真正读到其中文字的人都会很快知道有些事情不对劲。
  • 阅读代码的副作用包括恶心、头晕、混乱、眼睛流血以及对 Unix pipelines 的创建者深深的爱/恨。
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击引领话题📣 发布并加入讨论🔥
暂无内容
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
0 评论
5 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部