撬动地球的Google

第21节:神奇的Google(4)

“他们非常看不惯商业化的美国社会中存在的一些现象,而且他们从来都不会出于谨慎而向人们掩饰他们的不满。”阿利森说道。

当佩奇开始做报告的时候,阿利森还是很受震动。拉里是个非常出色的教师,他可以找到某个问题的关键,然后以非技术性的、人人都能够理解的方式解释它。在阿利森看来,拉里是个头脑清晰的人,而且很清楚自己在做什么。

“每次当你建立一个链接的时候,”拉里对教室里鸦雀无声的听众说道,“你就建立了一个引用。但是如果你像搜索引擎那样开始计算网络上引用的数量,你就会遇到新的问题。网络不像科学文献,任何人都能够制作网页。”

“一种看待PageRank的方式,”他解释说,“就是把它当成一个用户模型。假设有一个随意的网络冲浪者,从某种意义上来说,它就是一只猴子,每天到处地跑,点击一个又一个链接,但这种乱点行为却不包含智力成分。你也可以说,这与人们在网络上的行为类似。”佩奇停顿了一下,听众们发出窃笑声,然后他又接着讲。

“从根本上讲,PageRank算法假设,如果有人用链接指向你,那么你就可以分得一部分属于他们的重要性。具体来说,如果一个非常重要的人指向你,这就比一个无关紧要的网站的主人指向你要有价值得多。比如,假如雅虎的主页指向你的网页,这就是件非常了不起的事。即使你只有一个在雅虎主页上的链接,这就已经很好了。要让重要的网站链接你,你要么付很多钱给别人,要么你的网页本身非常不错。而如果你在我的主页上有一个链接,估计没有人会把它当做一回事。”然后,佩奇解释了他是怎么找到产生分等级的搜索结果的配方的。“我们大体上根据那些网页的重要性,为他们赋值。一张网页的等级就由指向它的所有网页的重要性数值的总和来决定。”

搜索引擎的另外一个重要挑战,佩奇说,就是人们会想方设法地欺骗它来使自己的网站在搜索结果列表中得到一个更高的评级。因此,要赢得这场网络战争,搜索引擎必须要比那些恶意操纵它的网站更高明才行。

“人们会试图误导搜索引擎,”佩奇说,“有多少人曾经在搜索结果中看到色情内容和其他东西一起出现呢?看到的请举手……OK,我们看到有不少人承认他们看到过。这个问题对于搜索引擎来说非常严重。从根本上讲,人们试图通过让他们的网页出现在每个搜索结果中来赚钱,他们根本不在乎你在搜索什么,他们根本就是什么都不在乎。他们只想为他们的网页争取访问流量,这是个非常严重的问题。”

在提出问题之后,佩奇解释说,他正在寻求解决的方法。他说,问题的答案就在于充满活力的、不断更新的衡量网站真正重要性的方式,它使网站经营者钻系统空子的难度加大了。而Google总是将终端用户的利益摆在第一位,它一定会做好这项工作的。

这时,佩奇忍不住又指出了其他搜索引擎技术的另外一个令人遗憾的缺点。“搜索引擎的运行不尽如人意。”佩奇说,“如果你把AltaVista输到另外一个搜索引擎中搜索,你能看到AltaVista的主页吗?很可能不会。而我们很好地解决了这个问题。我们完全依靠自己的力量来解决这些问题。这的确是个非常艰巨的任务。”

Google运作方式的核心是将复杂的任务分解成小块,然后同时处理它们。凭借正确的数学方程,加上多台个人电脑,布林和佩奇可以创造出一个现代的流水线来处理信息的收集、索引和呈现。同时,根据摩尔定律,他们将来能够以更低的成本获取更强大的计算机处理能力。

“我们在网络中捕获网页,也就是说,我们走出去下载整个网络。大概每秒钟我们可以下载100张网页,”佩奇说,“要想可靠地完成这个任务是非常复杂的。事实上,我们存储了我们下载的所有信息,因为这对于研究工作非常有价值。我们将整个网络储存在硬盘上,拥有这些信息对于科学研究很有用处。”

拉里 · 佩奇进一步解释是什么使得Google搜索引擎比其他搜索引擎性能更优越,在座的斯坦福的学生和教授们都聚精会神地听着。

“当某搜索语句的搜索词数量大于1时,我们会关注网页上这些词之间的距离。”他说。为了实现这个目的,需要由一系列方程式构成的复杂的软件。其他的搜索引擎使用更简化的方式,所以追赶不上网络成长的步伐。Google拥有强大的数学方程式,下载了尽可能多的网页,还非常复杂,这些都使得它与众不同。

“如果你想要得到更多的信息,你就必须捕获更多的网页,”佩奇说,“这是解决这个问题的简单方式。”

拉里和谢尔盖非常谨慎,尽量不泄露PageRank和Google的所有秘密。在这间教室里,也许就有来自其他公司的间谍,他们不希望有人趁机偷走自己辛勤工作的成果。

此时,布林决定要活跃一下会场气氛。他说,也许听起来网页捕获和索引的技术性很强,但这些工作仍很有风险,有时甚至是危险的。谢尔盖解释说,在一些网站管理员的眼中,网页捕获爬虫是他们不乐见的入侵者。

“在进行网页捕获时,”布林说,“我们遇到了很多有趣的事。联系上百万家的网站,就等于联络上百万名网站管理员。这就像是挨家挨户地敲上百万户人家的门,然后把你的电子邮件地址留给他们。要在这个过程中幸存下来,几率有多大呢?我估计,在奥克兰的某些地方你就会受点挫折。”

布林说,有一小拨“疯狂”的网络管理员认为Google的网页捕获器干扰了自己网站的正常运营,并深受其扰。他们通过规模庞大的电邮攻击来反击,或者威胁要采取法律行动。“他们向我们抗议,试图起诉我们,最后我们不得不放弃在蒙大拿的所有网站。现在,我们又放弃了新加坡的所有网站……时不时地,还会有人联络斯坦福大学的风险管理官员,而在那之前,你甚至不知道世界上有这样一个人存在。不过,当然,现在我们知道了,他联络我们了。所以麻烦总是无休无止的。”