如果问大家,最痛恨Google的是什么?我相信会有很多人的答案是注册Google账户时候的那个CAPTCHA(验证码)——因为那实在是太难辨认了。不知道Google是不是意识到了这个问题:他们今天正式宣布收购了reCAPTCHA。
CAPTCHA(验证码)是指用户可以分辨,但是恶意自动注册程序却无能为力的一串字符(比如上图)。截止到现在,reCAPTCHA已经为超过10万个网站提供了类似的服务
Google对reCAPTCHA的收购不但提高了Google抵御自动注册程序的能力,也对改善书籍和早期报纸扫描的准确性和速度有着极大的帮助。reCAPTCHA为验证码提供的字母很多扫描自年份久远的报纸和书籍,电脑很难识别这些被岁月洗刷褪色的印刷文字。但是当用户把这些字符作为CAPTCHA输入时,用户就相当于教会了电脑如何识别这些文字。
就这样,reCAPTCHA独特的技术大大提升了OCR(将扫描的图片转换为文本)的水平。这个技术同时为需要大批量的文本扫描工作的Google服务提供了基础——比如说Google Books和Google News Archive Search。Google将这些传统媒体数字化数字化,以便用户可以方便的检索其中的内容,并可以随时通过移动设备访问自己所需的资源。