以正確順序挑選出最好的幾個(gè)命中被稱為“排名”。排名是關(guān)鍵的第二個(gè)階段,緊隨最開始的匹配階段。在搜索行業(yè)的殘酷世界中,搜索引擎的生死由其排名系統(tǒng)的質(zhì)量決定。2002年,美國(guó)前三大搜索引擎的市場(chǎng)份額基本相當(dāng),谷歌、雅虎和MSN在美國(guó)的市場(chǎng)份額都在30%以下。[MSN隨后被重新包裝成Live Search,之后又被命名為必應(yīng)(Bing)。]之后幾年,谷歌的市場(chǎng)份額迅速擴(kuò)大,同時(shí)將雅虎和MSN的市場(chǎng)份額打壓到了20%以下。人們普遍認(rèn)為,谷歌迅速上升為搜索行業(yè)冠軍是得益于其排名算法。因此,毫不夸張地說(shuō),搜索引擎的生死由其排名系統(tǒng)的質(zhì)量決定。不過(guò),正如我已經(jīng)提到的,我們將在下一章探討排名算法。至于現(xiàn)在,讓我們專注于匹配階段吧。
AltaVista:第一個(gè)互聯(lián)網(wǎng)級(jí)別的匹配算法
搜索引擎匹配算法的故事從哪里開始?一個(gè)很顯然卻錯(cuò)誤的回答會(huì)說(shuō)從谷歌——21世紀(jì)初期最偉大的技術(shù)成功故事——開始。事實(shí)上,谷歌最初只是兩位斯坦福大學(xué)研究生的博士學(xué)位項(xiàng)目,這個(gè)故事不僅溫暖人心,而且令人印象深刻。拉里·佩奇(Larry Page)和謝爾蓋·布林(Sergey Brin)在1998年組裝了一堆計(jì)算機(jī)硬件來(lái)運(yùn)行一種新的搜索引擎。不到10年,他們的公司成為了互聯(lián)網(wǎng)時(shí)代崛起的最偉大的數(shù)字巨人。
不過(guò),互聯(lián)網(wǎng)搜索的想法已經(jīng)存在很多年了。最早的商業(yè)應(yīng)用是Infoseek和Lycos(兩者都于1994年推出),以及于1995年推出搜索引擎的AltaVista。20世紀(jì)90年代中期的幾年中,AltaVista是搜索引擎的王者。當(dāng)時(shí)我還是一名計(jì)算機(jī)科學(xué)研究生,我清楚地記得自己驚嘆于AltaVista搜索結(jié)果的成熟度。有史以來(lái)第一次,有一個(gè)搜索引擎能完全索引互聯(lián)網(wǎng)上每一個(gè)頁(yè)面的全部文本。更可貴的是,眨眼間就能返回結(jié)果。要繼續(xù)理解這個(gè)令人回味的技術(shù)突破,我們要從接觸一個(gè)古老的(毫不夸張)概念——索引——開始。
古老的索引
索引的概念是所有搜索引擎背后最基礎(chǔ)的思想。但索引并非由搜索引擎發(fā)明:事實(shí)上,索引的思想幾乎和書寫本身一樣古老。比如,人類學(xué)家發(fā)現(xiàn)了一座具有五千年歷史的巴比倫神廟圖書館,里面按學(xué)科對(duì)楔形文字泥版進(jìn)行了分類。因此,索引可以稱得上是計(jì)算機(jī)科學(xué)中最古老的有用思想。
如今,“索引”這個(gè)詞通常指參考書最后的一個(gè)板塊。你可能想要查看的所有概念都以固定順序(通常是按字母排序)列出,每一個(gè)概念下都列出了這個(gè)概念出現(xiàn)的位置(通常是頁(yè)碼)。因此,一本和動(dòng)物有關(guān)的書也許會(huì)有一個(gè)像“cheetah 124,156”的索引項(xiàng)。這個(gè)索引項(xiàng)意味著“cheetah”(獵豹)這個(gè)詞在第124頁(yè)和第156頁(yè)出現(xiàn)過(guò)。(讓你做個(gè)相當(dāng)有趣的練習(xí),你可以在本書的索引中查詢“index”這個(gè)詞。你應(yīng)該可以找到這一頁(yè)。)