撬动地球的Google

第15节:PageRank技术(2)

同时,斯坦福的博士学位申请人杨致远和大卫·费罗(David Filo)采取了一种截然不同的搜索方式。他们的工作并不仅仅依赖于技术,他们雇用了一些编辑,按字母顺序为网页目录进行排序,并从中选取网站。他们给自己的公司起名雅虎。尽管他们的办法可以帮助网络用户容易地找到有价值的信息,但信息还不够完整,而且也跟不上网络不断膨胀的步伐。布林和莫特万尼还试用了其他网页目录和搜索引擎,但是,没有哪一个可以完成这个工作。恰恰相反,一个简简单单的搜索指令会带来一长串毫不相干的结果。他们必须花几个小时人工过滤一张张网页,来找出自己想找的信息。布林和莫特万尼确信,开发出新的办法来进行搜索迫在眉睫。

与此同时,佩奇曾经花了一些时间来参加数字图书馆项目。他也开始用一种叫做AltaVista的搜索引擎来搜索网络。它反馈结果的速度要快一些,而且也比其他工具的结果更优化。但是,佩奇意识到一个全新的问题。在提供网站列表的同时,AltaVista的搜索结果还提供一种看起来无关紧要的关于“链接”的信息。链接造就了网络的活力,当计算机用户想要了解更多信息的时候,他们会找到这些突出显示的文字或者短句,点击这些链接,然后访问其指向的另外一张网页。佩奇关注的不是AltaVista提供的主要搜索结果,而是思考如何能够通过分析这些链接来收取被漏掉的果实。

佩奇的指导教师之一,赫克托 · 加西亚-莫利纳(Hector Garcia-Molina)同意他的看法,认为研究链接具有潜在的价值。看起来,AltaVista并没有对这些链接进行任何的处理,而只是把它们按原始的模样显示出来。佩奇希望深入地挖掘这些链接,研究如何更进一步地利用它们。不过,为了检验自己的理论,佩奇需要一个庞大的数据库。佩奇从来不缺乏野心,他经过简单的计算,就告诉其斯坦福大学的指导教师,他要把整个网络下载到自己的台式电脑上,这个想法把老师们吓了一跳。

从表面上来看,佩奇的想法何止是英勇无畏,简直就是可笑。他甚至宣称下载工作很简单,很快就能够完成。加西亚-莫利纳和其他教师都对此深表怀疑。然而,佩奇对此相当认真,而且拿定主意要为自己的研究做好万全准备。他有很好的合作伙伴。在1989年发明了万维网的英国科学家蒂姆·伯纳斯-李(Tim Berners-Lee)曾经提出这样的说法,认为信息饥渴的计算机用户可以点击突出显示的文本,从一个文件

1996年慢慢过去,在此期间,佩奇和布林合作进行下载和分析网络链接的工作。获取数据的过程比佩奇预计的要长,而且他估计他们每放一个网络爬虫程序出去搜集整个网络,计算机科学系就得为此支付2万美元,但是他急于完成这项工作。他想要发现这些自动化的交叉指代的重要性。他的研究目的不但吸引了布林的注意,还吸引了布林的指导教师莫特万尼的注意。因为,这项工作有希望改进网络搜索。布林之所以加入这个项目,一是因为他很希望能够与佩奇一起工作,二是他一向对从大量随机数据中提取信息很感兴趣,而这个项目恰恰与此相关。如果布林想要发挥他数学和编程的优势,还有哪个舞台比互联网更广阔呢?

佩奇建立起了自己的理论模型——可以通过计算指向某个网站的链接的数量来确定这个网站的受欢迎程度。尽管受欢迎程度并不总是同价值相关,不过,他和布林都生长在学术世家,非常重视发表在学术期刊上引用了诸多相关文献的学术研究成果。而对佩奇来讲,在某种意义上,链接就像是文献引用。科学家会引用那些同自己的研究相关的已出版的文献,而这些引用可以帮助学术研究界确定某项研究成果的价值和影响力。“文献引用非常重要,”佩奇说,“事实证明,获得诺贝尔奖的科学家们引用了上万种不同的文献。”他还说,“如果你的成果在相关科学文献中被大量引用,就说明,你的工作非常重要,因为很多人都觉得它值得一提。”

而佩奇得出的结论是,同样的道理也适用于网站。他更进一步取得了概念上的突破:并非所有的链接都具有同样的价值,其中一些比另外一些更重要。佩奇赋予从重要的网站上发出的链接更高的权重。那么,他又如何确定哪些网站更重要呢?很简单,指向哪个网站的链接多,哪个网站就重要。换句话说,如果人气很旺的雅虎主页上有指向某个互联网网站的链接,那么这个网站马上就变得重要一些了。佩奇把自己的姓氏同自己正在处理的这些文件巧妙地结合在一起,为他的链接评级体系起名为“PageRank”(网页序列等级)。

佩奇的另外一位指导老师,斯坦福大学的特里·维诺格拉德(Terry Winograd)教授称,解决网页排序问题的学术出路,最终取决于弄明白通过追踪链接到底可以发现什么。“一开始,拉里的想法是进行随机的网络浏览,就像是在网络中漫无目的地漫步。这套算法(一系列数学方程式)是为普通的网络用户发明的。大部分时候,他们在某个网页上点击一个链接,就会到达网络上的某个目的地。对这个过程的提炼造就了PageRank。”

布林和佩奇相信,把PageRank算法应用于互联网,可以作为他们博士论文的研究方向。1997年初,佩奇打造了一个叫“BackRub”的简单的搜索引擎。这个搜索引擎之所以叫“BackRub”是因为它主要处理反向链接。佩奇一直善于精打细算,他把自己的左手平放在扫描仪上,将自己的手纹转化成了一种黑白的图片,而这就是BackRub网站的标志。布林、佩奇和莫特万尼都为这个正在形成的项目贡献了自己的创意。莫特万尼说,不久,他们就清楚地意识到,这个项目不仅仅是一个继续他们的学术研究的途径。尽管事先并没有想到,不过当这三个人把自己的排序方法应用于互联网的时候,却出其不意地解决了互联网信息搜索的一个关键问题。