6 个优秀的开源 OCR 光学字符识别工具

oschina
 oschina
发布于 2013年04月28日
收藏 231

纸张在许多地方已日益失宠,无纸化办公谈论40多年,办公环境正限制纸山的生成。而过去几年,无纸化办公的概念发生了显着的转变。在计算机软件的帮助 下,包含大量重要管理数据和资讯的文档可以更方便的以电子形式储存。扫描文档的好处不纯粹是存档理由。为了访问基于纸张的信息和将信息整合进数字工作流, 光学字符识别(OCR)技术至关重要。选择正确的OCR工具要基于特定需求而定,例如在线OCR服务对某些人有用,但可能存在隐私问题和文件大小限制。 OCR软件非大众产品,因此开源替代相对于商业级重量级产品相对较少,再加上OCR软件需要先进的算法将扫描的图像正确翻译成实际的文字,而图像不仅仅含 有文字,它还包含布局、图形和表格,可能会跨越多页。

优秀的开源OCR软件包括:

Tesseract

原本由惠普开发的图像识别类库tesseract-ocr已经更新到2.04, 就是最近Google支持的那个OCR。原先是惠普写的,现在Open source了。

OCRopus

Ocropus的(TM)是一个先进的文件分析和OCR系统,采用可插入的布局分析,可插入的字符识别,自然语言统计建模和多语言支持功能。

Cuneiform

Cuneiform 是一个 OCR 文字识别系统的商标,最开始是由Cognitive 技术所开发的运行在 Windows 下的软件。而这个项目是该软件在 Linux 系统下的移植版本。

GOCR

GOCR 是一个开源的OCR光学识别程序。

OCRFeeder

OCRFeeder 是 GNOME 桌面下的一个开源 OCR 套件。可将纸质或者图形文档转成电子文档。

Lios

linux-intelligent-ocr-solution (Lios) 是Linux下一个开源的 OCR 解决方案,可将打印的文档转成可编辑的文本。

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 OSCHINA 社区 [http://www.oschina.net]
本文标题:6 个优秀的开源 OCR 光学字符识别工具
加载中

最新评论(11

小小小麦昆

引用来自“北落”的评论

中文效果能到95%吧
no
瞧红尘
这些OCR遇到手写体,识别率都会降到30%以下吧
白豆腐徐长卿
白豆腐徐长卿

看到汉王,呵呵

远志
远志
国内的使用对中文支持还是最重要的,不知哪款对中文支持最好,汉王的怎样?
火眼金睛容嬷嬷
火眼金睛容嬷嬷
中文英文不是一个数量级啊
km董董
km董董
谁有ABBYY FineReader 的SDK 试用版?
北落
北落
中文效果能到95%吧
navyblue
navyblue
同楼上,中文有没有
v
virhuiai
ABBYY FineReader是好用
Tesseract挻早就3.01了吧,支持中文了,清晰的图片,ocr正确率还是不错了
hehuim
hehuim
最好用的还是ABBYY FineReader,虽然收费不开源!
返回顶部
顶部