Tesseract 5.0 发布,开源 OCR 引擎

来源: OSCHINA
编辑: Alias_Travis
2021-12-04

Tesseract 是一个最初由惠普公司开发的 OCR 引擎,并于 2005 年开源,Google 在第二年接管了项目的大部分开发工作。

Tesseract 5.0 发布,更新内容如下:

  • 原生支持 Apple Silicon
  • 默认情况下,训练和识别速度更快;
  • 更多的二值化选项
  • 改进了对 ARM NEON 的支持
  • 现代化的代码
  • 从公共 API 中删除了专有数据类型,如 GenericVector 和 STRING
  • 不再需要 pdf.ttf,现在集成到了代码中
  • 使用 automake 更快地进行平面构建
  • combine_tessdata 的新选项可以显示 traineddata 文件的细节
  • 改进了训练信息
  • 改进了单元测试和模糊测试
  • 大量的错误修正

更多详情可查看:https://github.com/tesseract-ocr/tesseract/releases/tag/5.0.0

 

展开阅读全文
29 收藏
分享
加载中
精彩评论
开源界唯一能打的OCR方案🤙
2021-12-05 10:54
3
举报
最新评论 (5)
开源界唯一能打的OCR方案🤙
2021-12-05 10:54
3
回复
举报
1
2021-12-05 08:04
0
回复
举报
可以识别中文吗
2021-12-04 10:07
0
回复
举报
当然
2021-12-04 15:44
0
回复
举报
给个链接?
等待基于 Tesseract 的 linux 中文手写输入法。
如果等不到,我准备写一个单机版程序,基于 Tesseract 的 linux 中文手写,识别完后复制到其它程序中。
2022-01-07 16:16
0
回复
举报
更多评论
5 评论
29 收藏
分享
返回顶部
顶部