改變未來的九大算法 - PageRank——讓谷歌騰飛的技術(shù)（7）

搜索引擎稱這種濫用為網(wǎng)絡(luò)垃圾（web spam）。（這一術(shù)語是和電子郵件垃圾<e-mail spam>類比得來的：電子郵件收件箱中無用的信息，類似于充斥在搜索結(jié)果中無用的網(wǎng)頁。）對于所有搜索引擎而言，偵測并消除不同類型的網(wǎng)絡(luò)垃圾是一直在進(jìn)行的重要任務(wù)。比如，在2004年，微軟一些研究人員發(fā)現(xiàn)，逾30萬個網(wǎng)頁都只有1 001個網(wǎng)頁鏈向它們——這是件非常令人生疑的事情。通過手動檢查這些網(wǎng)頁，研究人員發(fā)現(xiàn)，這些鏈入超鏈接絕大多數(shù)都是網(wǎng)絡(luò)垃圾。

因此，搜索引擎和網(wǎng)絡(luò)垃圾制造者在進(jìn)行一場軍備競賽。搜索引擎不斷嘗試完善算法，以便返回真實排名。在完善PageRank算法的驅(qū)動下，孕育了大量針對其他使用互聯(lián)網(wǎng)超鏈接結(jié)構(gòu)進(jìn)行網(wǎng)頁排名的算法的學(xué)術(shù)和行業(yè)研究。這類算法通常被稱為基于鏈接的排名算法（link-based ranking algorithms）。

另一個復(fù)雜因素與PageRank計算的高效性有關(guān)。訪問者權(quán)重值是通過運(yùn)行隨機(jī)模擬來計算的，但在整個互聯(lián)網(wǎng)上運(yùn)行這類模擬耗時太長，不能進(jìn)行實際運(yùn)用。因此，搜索引擎并非通過模擬隨機(jī)訪問者來計算PageRank值：它們使用能像隨機(jī)訪問者模擬一樣給出相同答案的數(shù)學(xué)技巧，但計算成本要低很多。我們研究訪問者模擬技術(shù)是因為它直觀的吸引力，也因為它描述了搜索引擎計算什么，而非如何計算。

另外，值得一提的還有，商業(yè)搜索引擎中用來判定排名的算法，要比PageRank這類基于鏈接的排名算法多得多。即便是在他們于1998年發(fā)表的描述谷歌的原始論文中，谷歌的聯(lián)合創(chuàng)始人也提到了多種對搜索結(jié)果排名有貢獻(xiàn)的功能。正如你所想的，這項技術(shù)已經(jīng)進(jìn)步了：在寫作本書時，谷歌官網(wǎng)上聲明“有超過200個信號”被用于評估一個網(wǎng)頁的重要性。

除了現(xiàn)代搜索引擎的眾多復(fù)雜性之外，PageRank核心的優(yōu)美思想——權(quán)威性網(wǎng)頁通過超鏈接向其他網(wǎng)頁傳輸權(quán)重——仍然有效。正是這一思想幫助谷歌擊敗了AltaVista，讓谷歌從一家小型創(chuàng)業(yè)企業(yè)幾年后成長為搜索之王。沒有PageRank的核心思想，絕大多數(shù)搜索引擎查詢都將被成千上萬命中但不相關(guān)的網(wǎng)頁海洋所淹沒。PageRank的確是一塊算法瑰寶，能讓針毫不費(fèi)力地冒到草垛的頂端。

日韩精品 中文字幕 动漫,91亚洲午夜一区,在线不卡日本v一区v二区丶,久久九九国产精品自在现拍

日韩精品中文字幕动漫,91亚洲午夜一区,在线不卡日本v一区v二区丶,久久九九国产精品自在现拍