搜索引擎稱這種濫用為網(wǎng)絡(luò)垃圾(web spam)。(這一術(shù)語是和電子郵件垃圾<e-mail spam>類比得來的:電子郵件收件箱中無用的信息,類似于充斥在搜索結(jié)果中無用的網(wǎng)頁。)對于所有搜索引擎而言,偵測并消除不同類型的網(wǎng)絡(luò)垃圾是一直在進(jìn)行的重要任務(wù)。比如,在2004年,微軟一些研究人員發(fā)現(xiàn),逾30萬個網(wǎng)頁都只有1 001個網(wǎng)頁鏈向它們——這是件非常令人生疑的事情。通過手動檢查這些網(wǎng)頁,研究人員發(fā)現(xiàn),這些鏈入超鏈接絕大多數(shù)都是網(wǎng)絡(luò)垃圾。
因此,搜索引擎和網(wǎng)絡(luò)垃圾制造者在進(jìn)行一場軍備競賽。搜索引擎不斷嘗試完善算法,以便返回真實排名。在完善PageRank算法的驅(qū)動下,孕育了大量針對其他使用互聯(lián)網(wǎng)超鏈接結(jié)構(gòu)進(jìn)行網(wǎng)頁排名的算法的學(xué)術(shù)和行業(yè)研究。這類算法通常被稱為基于鏈接的排名算法(link-based ranking algorithms)。
另一個復(fù)雜因素與PageRank計算的高效性有關(guān)。訪問者權(quán)重值是通過運(yùn)行隨機(jī)模擬來計算的,但在整個互聯(lián)網(wǎng)上運(yùn)行這類模擬耗時太長,不能進(jìn)行實際運(yùn)用。因此,搜索引擎并非通過模擬隨機(jī)訪問者來計算PageRank值:它們使用能像隨機(jī)訪問者模擬一樣給出相同答案的數(shù)學(xué)技巧,但計算成本要低很多。我們研究訪問者模擬技術(shù)是因為它直觀的吸引力,也因為它描述了搜索引擎計算什么,而非如何計算。
另外,值得一提的還有,商業(yè)搜索引擎中用來判定排名的算法,要比PageRank這類基于鏈接的排名算法多得多。即便是在他們于1998年發(fā)表的描述谷歌的原始論文中,谷歌的聯(lián)合創(chuàng)始人也提到了多種對搜索結(jié)果排名有貢獻(xiàn)的功能。正如你所想的,這項技術(shù)已經(jīng)進(jìn)步了:在寫作本書時,谷歌官網(wǎng)上聲明“有超過200個信號”被用于評估一個網(wǎng)頁的重要性。
除了現(xiàn)代搜索引擎的眾多復(fù)雜性之外,PageRank核心的優(yōu)美思想——權(quán)威性網(wǎng)頁通過超鏈接向其他網(wǎng)頁傳輸權(quán)重——仍然有效。正是這一思想幫助谷歌擊敗了AltaVista,讓谷歌從一家小型創(chuàng)業(yè)企業(yè)幾年后成長為搜索之王。沒有PageRank的核心思想,絕大多數(shù)搜索引擎查詢都將被成千上萬命中但不相關(guān)的網(wǎng)頁海洋所淹沒。PageRank的確是一塊算法瑰寶,能讓針毫不費(fèi)力地冒到草垛的頂端。