当前位置:首页 > 生活服务 > IT > ReCAPTCHA
网站详情
名称: 

ReCAPTCHA

     人气: 

ReCAPTCHA是卡内基梅隆大学启动的一个项目,目的是借助CATPTCHA技术将那些残旧图书数字化,据估计,该技术每天可以完成160本书。CAPTCHAs是一种恼人的技术,据资料统计,全球用户每天要完成1亿次CAPTCHA测试。reCAPTCHA是利用CAPTCHA的原理(CAPTCHA的中文全称是全自动区分计算机和人类的图灵测试),借助于人类大脑对难以识别的字符的辨别能力,进行对古旧书籍中难以被OCR识别的字符进行辨别的技术。也就是说,reCAPTCHA不仅可以反spam,而且同时还可以帮助进行古籍的数字化工作(可以称为人工OCR)。2009年9月17日,Google宣布收购reCAPTCHA。

该项目目前已经在40000家网站上部署了ReCAPTCHA技术,ReCAPTCHA的基本原理是,对光学字符识别(OCR)软件来说,它们的辨识能力是有限的,尤其是那些印刷不清晰的旧书或残书,而人类可以凭借自己的阅读经验,轻松识别那些OCR无法识别的文字。对这样的文字,人类的识别成功率可以达到99%,而OCR软件只能达到80%。

ReCAPTCHA结合了传统OCR与一个类似Amazon's Mechanical Turk的系统。每个单词都先经过两个不同的OCR软件辨识,如果两个OCR识别结果不一致,该单词会被标志为“未识别”,这些未被识别的文字会被送入ReCAPTCHA系统,被制作成CAPTCHA文字让用户识别。总体来说,ReCAPTCHA实现了99.1%的成功率,这几乎是让一个人打字,另一个人在旁边辨认的成功率。该项目的精彩之处在于,它利用了那些本来是被浪费掉的人类的脑力。其它类似的项目也基于相同的思想,比如,fold.it,将蛋白质折叠计算转换成一个游戏,而Google的ImageLabeler项目也是借助庞大的用户群的脑力完成对互联网中的图片的辨认。

reCAPTCHA使用起来并不复杂,大多数独立blogger所用的wordpress,MT都有相应的插件支持。在注册一个用户名后,输入你的blog域名(只支持域名和子域名),就会得到一个Public Key,把他用在你所用的reCAPTCHA插件上。reCAPTCHA也支持多个站点。安装成功后,用户评论就有了CAPTCHA功能。每次CAPTCHA会显示两个单词让人来识别,其中一个是需要用户识别的难认词,另外一个是答案已知的真正的CAPTCHA 词。软件将能够正确识别CAPTCHA词的用户看作是人类,当CAPTCHA 词被正确识别出来后,程序会纪录用户对无法阅读的词的回答并将其添加到它的数据库中。这样就完成了一次人工的OCR识别。为了改善软件的精确性, reCAPTCHA 会将最困难的词发送给多个用户并挑选其中有相同答案的作为正确的答案。用户每使用一次这个程序,实际上就是在帮助数字重现1908年《纽约时报》上的某一页,或者其它古书中的一页,这对考古学具有重大的意义。

联系方式:如有需要,可以在http://www.google.com/recaptcha/contact页面填写并提交相关内容。 

发表评论
"去看看"温馨提醒:
1、请勿发表违反国家法律评论,评论请文明用语;
2、禁止发布广告评论。
匿名发表  用户名: 密码: 验证码:
相关网站
    无相关信息
本类热门网站
本类新入网站
关于我们 | 联系我们 | 贡献网站 | 免责声明 | 友情链接 | 意见反馈 | 返回顶部