比 tesseract 更好的中文识别 deep_ocr

GPL
Python
跨平台
2016-11-29
chongdata

deep_ocr 是使得 OCR 比 tesseract 更好的中文识别、身份证识别等等。

估计很多开发员使用 tesseract 做中文识别,但是结果不是一般的差,譬如下面的图片

$ tesseract -l chi_sim test_data.png out_test_data
看到恨多公司在招腭大改癫和机器字习胸人 v 我有3个建议 (T) 忧T ' 2个上t较靠遭
胸人就譬了 v不是越多越好 (2) 这T '2个人要能给大蒙上踝'倩邂知L目 (3) 不要招
不宣代四胸人:虹大改癫和机器字习胸v不裹目宣 (或者宣过) 大量代四v基本上就
只会忽悠了

其实现在做文字识别不是很难,特别基于深度学习,这里是这个项目的reco_chars.py脚本,基于caffe的识别效果,是不是好很多?而且代码比tesseract短很多。

$ python reco_chars.py
看很多公苘在招聘天数据和机器学习人我有个建议找个较靠谱
的人就够了不是越多越好这个人要给大家上课传递知识不要招
不写代码的人做天数据机器学习的不亲写或者写过天且代码基本上就
只会忽悠了

大家可以基于caffe训练自己的字体,系统基于这个文章开发单个字的识别:

Deep Convolutional Network for Handwritten Chinese Character Recognition

http://cs231n.stanford.edu/reports/zyh_project.pdf
加载中

评论(3)

f
fdc2017
看来得学python
龙猫是我昂
龙猫是我昂
能出个java版本
云飞扬11
云飞扬11
mark

暂无资讯

暂无问答

Deep Learning with Azure 免积分下载

使用Microsoft的AI平台快速上手。通过为每位数据科学家和开发人员提供人工智能的开放,强大的工具和服务,学习创新和加速。 人工智能(AI)是新常态。深度学习算法和硬件的创新正在快速发展。...

01/06 11:43
2
0
【AI in 美团】 深度学习在OCR中的应用

背景 计算机视觉是利用摄像机和电脑代替人眼,使得计算机拥有类似于人类的对目标进行检测、识别、理解、跟踪、判别决策的功能。以美团业务为例,在商家上单、团单展示、消费评价等多个环节都...

2018/06/29 14:37
86
0
11.2OCR管理

如果期望把OCR存放到ASM磁盘上,ASM 的版本兼容必须设置为11.2.0.0。 If you upgrade from a previous version of Oracle Clusterware to 11g release 2 (11.2) and you want to store OCR i...

2013/05/03 08:48
17
0
如何通过Tesseract开源OCR引擎创建Android OCR应用

Tesseract是遵守 Apache License 2.0协议的开源OCR引擎。这里介绍下如何在Android平台编译Tesseract,以及如何快速创建一个简单的OCR应用。 参考原文:Making an Android OCR Application w...

2014/12/23 10:14
18.6K
2
OCR开发包--你的误解有多深

很多做图像识别的人士希望找到开源的OCR,目前免费开源而且正经能用的只有tesseract。扒一扒它的历史,tesseract是当年惠普开发的,但HP技不如人,竞争不过其他OCR厂商,就把tesseract开源了...

2016/07/27 14:04
448
0
CS224n学习笔记1——深度自然语言处理

一、什么是自然语言处理呢? 自然语言处理是计算机科学家提出的名字,本质上与计算机语言学是同义的,它跨越了计算机学、语言学以及人工智能学科。 自然语言处理是人工智能的一个分支,在计算...

01/05 01:37
2
0
文档文字扫描识别OCR技术

OCR技术识别文档的概括 我们常说的OCR、文字识别、OCR技术识别文档是指通过电子设备等将纸质上的文字识别出来,形成可编辑的文字。  OCR技术识别文档的流程 随着扫描仪的普及与广泛应用,再...

2018/03/29 15:47
69
0
OCR不容忽略的这项技术—国际版文字识别是怎样的体验?

关键词:OCR SDK 文字识别 中文识别 日文识别 韩文识别 英文识别 藏文识别 维文识别 随着近些年,OCR技术在国内慢慢普及开来,无论行内行外,听到识别这项技术,大家都有所耳闻,生活中也是随...

2018/05/30 22:50
11
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部