OCRmyPDF 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
OCRmyPDF 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
授权协议: MIT
开发语言: Python
操作系统: 跨平台
收录时间: 2017-03-11
提 交 者: 红薯

OCRmyPDF 为 PDF 文件增加了 OCR 文本层,使之可以被方便的检索。

使用方法:

ocrmypdf                      # it's a scriptable command line program
   -l eng+fra                 # it supports multiple languages
   --rotate-pages             # it can fix pages that are misrotated
   --deskew                   # it can deskew crooked PDFs!
   --title "My PDF"           # it can change output metadata
   --jobs 4                   # it uses multiple cores by default
   --output-type pdfa         # it produces PDF/A by default
   input_scanned.pdf          # takes PDF input (or images)
   output_searchable.pdf      # produces validated PDF output

主要特性:

  • Generates a searchable PDF/A file from a regular PDF

  • Places OCR text accurately below the image to ease copy / paste

  • Keeps the exact resolution of the original embedded images

  • When possible, inserts OCR information as a "lossless" operation without rendering vector information

  • Keeps file size about the same

  • If requested deskews and/or cleans the image before performing OCR

  • Validates input and output files

  • Provides debug mode to enable easy verification of the OCR results

  • Processes pages in parallel when more than one CPU core is available

  • Uses Tesseract OCR engine

  • Supports more than 100 languages recognized by Tesseract

  • Battle-tested on thousands of PDFs, a test suite and continuous integration

展开阅读全文

代码

OCRmyPDF 的相关资讯

还没有任何资讯

OCRmyPDF 的相关博客

白嫖谷歌 GPU 资源!使用神经网络提取 PDF 表格工具来了,支持图片

贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI “表哥表姐”们还在为大量PDF文件中的表格发愁吗? 百度一下,网上有大量提...

修改brew修改为中科大源

cd "$(brew --repo)" git remote set-url origin https://mirrors.ustc.edu.cn/brew.git cd "$(brew --repo)/Library/Taps/...

Mac环境 安装brew

一。brew官网主页上的方法: /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/i...

OCRmyPDF 的相关问答

还没有任何问答,马上提问

评论 (0)

加载中
更多评论
0 评论
10 收藏
分享
返回顶部
顶部