Google 收购 reCAPTCHA

红薯
 红薯
发布于 2009年09月17日
收藏 1

如果问大家,最痛恨Google的是什么?我相信会有很多人的答案是注册Google账户时候的那个CAPTCHA(验证码)——因为那实在是太难辨认了。不知道Google是不是意识到了这个问题:他们今天正式宣布收购了reCAPTCHA

20090917-google-acquires-recaptcha

CAPTCHA(验证码)是指用户可以分辨,但是恶意自动注册程序却无能为力的一串字符(比如上图)。截止到现在,reCAPTCHA已经为超过10万个网站提供了类似的服务

Google对reCAPTCHA的收购不但提高了Google抵御自动注册程序的能力,也对改善书籍和早期报纸扫描的准确性和速度有着极大的帮助。reCAPTCHA为验证码提供的字母很多扫描自年份久远的报纸和书籍,电脑很难识别这些被岁月洗刷褪色的印刷文字。但是当用户把这些字符作为CAPTCHA输入时,用户就相当于教会了电脑如何识别这些文字。

就这样,reCAPTCHA独特的技术大大提升了OCR(将扫描的图片转换为文本)的水平。这个技术同时为需要大批量的文本扫描工作的Google服务提供了基础——比如说Google BooksGoogle News Archive Search。Google将这些传统媒体数字化数字化,以便用户可以方便的检索其中的内容,并可以随时通过移动设备访问自己所需的资源。

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:Google 收购 reCAPTCHA
加载中

最新评论(6

iamyangjy
iamyangjy

引用来自“刘冲”的评论

“但是当用户把这些字符作为CAPTCHA输入时,用户就相当于教会了电脑如何识别这些文字。”

上面那句话什么意思?电脑自己到底知道不知道那些文字到底是什么?
如果电脑需要用户的输入才知道文字的内容,那么怎么判断输入的正确性呢?

查看wiki上,其判断标准:
reCAPTCHA 会将最困难的词发送给多个用户并挑选其中有相同答案的作为正确的答案。据说准确率能够达到99%。
j
jamesni
see here http://lifehacker.com/5361187/remains-of-the-day-google-uses-you-to-read-books-edition
麦田小圈圈
麦田小圈圈
据我推测,google应该是这样做的:电脑预存了几种可能的单词,用户输入的单词,与这几中可能的单词匹配,如果有匹配对的,就按这个规则排序到最上面,如果很多用户都输入这个单词,说明就是这个单词了,这样就能确定下来.
j
jamesni
如果有100个人输入的验证码恰好可以构成某份年份久远的报纸上的一段文字,就相当于,用户为google提供了这段文字的可搜索版,不再需要借助OCR了。 差不多是这个意思
虫虫
虫虫
我和楼上有同样的问题。。。
刘冲
刘冲
“但是当用户把这些字符作为CAPTCHA输入时,用户就相当于教会了电脑如何识别这些文字。” 上面那句话什么意思?电脑自己到底知道不知道那些文字到底是什么? 如果电脑需要用户的输入才知道文字的内容,那么怎么判断输入的正确性呢?
返回顶部
顶部