大数据的简单算法比小数据的复杂算法更有效

作者: admin 分类: 技术书籍 发布时间: 2018-01-23 14:36  阅读: 496 views
  数据多比少好,更多数据比算法系统更智能还要重要。那么,混乱呢? 在班科和布里尔开始研究数据几年后,微软的最大竞争对手,谷歌,也开始更大规模地对这些问题进行探讨。谷歌用的是上万亿的语料库,而不是十亿的。谷歌做这类研究不是因为语法检查,而是为了解决翻译这个更棘手的难题。
  20世纪40年代,电脑由真空管制成,要占据整个房间这么大的空间。而机器翻译也只是计算机开发人员的一个想法。在冷战时期,美国掌握了大量关于苏联的各种资料,但缺少翻译这些资料的人手。所以,计算机翻译也成了亟需解决的问题。
  最初,计算机研发人员打算将语法规则和双语词典结合在一起。1954年,IBM以计算机中的250个词语和六条语法规则为基础,将60个俄语词组翻译成了英语,结果振奋人心。IBM701通过穿孔卡片读取了“Mipyeryedayem mislyi posryedstvom ryechyi” 这句话,并且将其译成了“我们通过语言来交流思想”。在庆祝这个成就的发布会上,一篇报道就有提到,这60句话翻译得很流畅。这个程序的指挥官利昂.多斯特尔特表示,他相信”在三五年后,机器翻译将会变得很成熟”.
  事实证明,计算机翻译最初的成功误导了人们。1966年,一群机器翻译的研究人员意识到,翻译比他们想象的更困难,他们不得不承认他们的失败。机器翻译不能只是让电脑熟悉常用规则,还必须教会电脑处理特殊的语言情况。毕竟,翻译不仅仅只是记忆和复述,也涉及选词,而明确地教会电脑这些非常不现实。法语中的“bonjour”就一定是“早上好”吗?有没有可能是”日安”“你好”或者“喂”?事实上都有可能 – 这需要视情况而定。
  在20世纪80年代后期,IBM的研发人员提出了一个新的想法。与单纯教给计算机语言规则和词汇相比,他们试图让计算机自己估算一个词或一个词组适合于用来翻译另一种语言中的一个词和词组的可能性,然后在决定某个词和词组在另一种语言中的对等词和词组。
  20世纪90年代,IBM的这个Candide项目花费了大概十年的时间,将大约有300万句之多的加拿大议会资料翻译成了英语和法语并出版。由于是官方文件,翻译的标准就非常高。用那个时候的标准来看,数据量非常之庞大。统计机器学习从诞生之日起,就聪明地把翻译的挑战变成了一个数学问题,而这似乎很有效! 计算机翻译在短时间内就提高了很多。然而,在这次飞跃之后,IBM公司尽管投入了很多资金,但取得的成效不大。最终,IBM公司停止了这个项目。
  2006年 ,谷歌公司也开始涉足机器翻译。这被当作实现“收集全世界的数据资源,并让人人都可以享受这些资源”这个目标的一个步骤。谷歌翻译开始利用一个更大更繁杂的数据库,也就是全球的互联网,而不再指利用两种语言之间的文本翻译。
  谷歌翻译系统为了训练计算机,会吸收它能找到的所有翻译。它会从各种各样语言的公司网站上去寻找联合国和欧洲委员会这些国际组织发布的官方文件和报告的译本。它甚至会吸收速度项目中的书籍翻译。谷歌翻译部的负责人佛朗兹.奥齐是机器翻译界的权威,他指出,“谷歌的翻译系统不会像Candide一样只是仔细地翻译300万句话,它会掌握用不同语言翻译的质量参差不齐的数十亿页的文档”。不考虑翻译质量的话,上万亿的语料库就相当于950亿句英语。
  尽管其输入源很混乱,但较其他翻译系统而言,谷歌的翻译质量相对而言还是最好的,而且可翻译的内容更能多。到2012年年中,谷歌数据库涵盖了60多种语言,甚至能够接受141种语言的语音输入,并有很流利的对等翻译。之所以能做到这些,是因为它将语言是为能够判别可能性的数据,而不是语言本身。如果要将印度语译成加泰罗尼亚语,谷歌就会把英语作为中介语言。因为在翻译的时候它能适当增减词汇,所以谷歌的翻译笔其他系统的翻译灵活很多。
  谷歌的翻译之所以更好并不是因为它拥有一个更好的算法机制。和微软的班科和布里尔一样,这是因为谷歌翻译增加了很多各种各样的数据。从谷歌的例子来看, 它之所以能比IBM的Candide系统多利用成千上万的数据,是因为它接受了有错误的数据。2006年,谷歌发布的上万亿的语料库,就是来自于互联网的一些废弃内容。这就是”训练集“,可以正确地推算出英语词汇搭配在一起的可能性。
摘自《大数据时代,生活、工作与思维的大变革》

   原创文章,转载请标明本文链接: 大数据的简单算法比小数据的复杂算法更有效

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!

发表评论

电子邮件地址不会被公开。 必填项已用*标注

更多阅读