大数据在默默的改变着世界-ReCaptcha与数据再利用

作者: admin 分类: 技术书籍 发布时间: 2018-01-23 14:43  阅读: 421 views

20世纪90年代后期,网络逐渐变得拥堵起来。有人开发了一款名为“Spanmbots”的垃圾邮件程序软件,向成千上万名用户批量发送广告信息,淹没收件人的电子邮箱。他们会在各种网站上注册,然后在评论部分留下成百上千条广告。网络因此成了一个不守规矩、不受欢迎、不够友善的地方。而且,这种软件似乎打破了网络原有的开放性和易用性模式,要知道,正式这种模式向人们提供了各种便利,比如免费电子邮件。当特玛捷这一类公司根据”先到先服务”的原则提供演唱会门票网上订票服务时,作弊软件会偷偷摸摸跑到真正排队的人之前,将门票全部买下。

 

2000年,22岁大学刚毕业的路易斯.冯.安提出了解决这个问题的方法:要求注册人提供真实身份证明。他试图找出一些人类容易辨别但对机器来说却很难的东西,在最后他想到了一个办法,即在注册过程中显示一些波浪状、辨识度低的字母。人能够在几秒钟内识别并输入正确的文本信息,但电脑却可能会被难道。雅虎采用了这个方法以后,一夜之间就减轻了垃圾邮件带来的苦恼。冯.安将他的这一创作称为验证码(全称为“全自动区分计算机和人类的图灵测试”)。五年后,每天约有2亿的验证码被用户输入。

 

这一切给冯.安这位家里经营糖果厂的危地马拉人带来了相当高的知名度,使他能够在取得博士学位后进入卡内基梅隆大学工作,教授计算机科学;也使他在27岁时获得了50万美元的麦克阿瑟基金会“天才奖”。但是,当他意识到每天 有这么多人要浪费10秒钟的时间输入这堆恼人的字母,而随后大量的信息被随意地丢弃时,他并没有感到自己很聪明。

 

于是,他开始寻找能使人的计算能力得到更有效利用的方法。他想到了一个继任者,恰如其分地将其命名为ReCaptcha。和原有随机字母输入不同,人们需要从计算机光学字符识别程序无法识别的文本扫描项目中读出两个单词并输入。其中一个单词用来确认其他用户已经输入的结果,从而判断注册者是人;另一个单词则是有待辨识和解疑的新词。为了保证准确度,系统会将同一个模糊单词发给五个不同的人,知道他们都输入正确后才确定这个单词是对的。在这里,数据的主要用途是证明用户是人,但它也有第二个目的;破译数字化文本中不清楚的单词。ReCaptcha的作用得到了认可,2009年谷歌收购了冯.安的公司,并将这一技术用于图书扫描项目。

 

与雇佣人所需要花费的成本相比较,它释放出的价值是非常巨大的。每天完成的ReCaptcha超过2亿,按平均每10秒输入一次的话,一天加起来一共是50万个小时,而2012年美工的最低工资是每小时7.25美元。从市场的角度来看,解疑计算机不能识别的单词每天需要花费约350万美元,或者说每年需要花费10亿多美元。冯.安设计的这个系统做到了这一点,并且,没有花一分钱。

 

ReCaptcha的故事强调了数据再利用的重要性。随着大数据的出现,数据的价值正在发生变化。

 

摘自《大数据时代,生活、工作与思维的大变革》


   原创文章,转载请标明本文链接: 大数据在默默的改变着世界-ReCaptcha与数据再利用

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!

发表评论

电子邮件地址不会被公开。 必填项已用*标注

更多阅读