作為谷歌技術(shù)演進(jìn)的奠基性文獻(xiàn),該論文具有重要的歷史紀(jì)念價(jià)值。然而,受限于技術(shù)迭代與Web規(guī)模的爆炸式增長(zhǎng),文中的部分實(shí)現(xiàn)細(xì)節(jié)與當(dāng)代搜索引擎技術(shù)已存在顯著差異。盡管如此,其核心思想——如基于超文本結(jié)構(gòu)的排序算法與海量數(shù)據(jù)處理架構(gòu)——仍對(duì)現(xiàn)代搜索引擎研發(fā)具有重要的借鑒意義。需說(shuō)明的是,因譯者水平有限,文中內(nèi)容可能存在理解偏差,建議讀者對(duì)照英文原版進(jìn)行嚴(yán)謹(jǐn)學(xué)術(shù)考證。
摘要
本文闡述了Google——一個(gè)充分利用超文本文件結(jié)構(gòu)實(shí)現(xiàn)高效搜索的大規(guī)模搜索引擎原型系統(tǒng)。該系統(tǒng)能夠?qū)W(wǎng)絡(luò)資源進(jìn)行高效爬取與索引,相較于同期其他系統(tǒng),其搜索結(jié)果的準(zhǔn)確性與相關(guān)性顯著提升。原型系統(tǒng)的數(shù)據(jù)庫(kù)涵蓋2400萬(wàn)頁(yè)面的全文內(nèi)容及其鏈接關(guān)系,可通過(guò)http://google.stanford.edu/在線訪問(wèn)。
設(shè)計(jì)大規(guī)模搜索引擎是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。系統(tǒng)需索引數(shù)以億計(jì)的異構(gòu)網(wǎng)頁(yè),并日均響應(yīng)千萬(wàn)級(jí)查詢請(qǐng)求。盡管大型搜索引擎對(duì)互聯(lián)網(wǎng)生態(tài)至關(guān)重要,但學(xué)術(shù)界針對(duì)其技術(shù)架構(gòu)的系統(tǒng)性研究卻相對(duì)匱乏。與此同時(shí),技術(shù)的快速演進(jìn)與Web內(nèi)容的指數(shù)級(jí)增長(zhǎng),使得搜索引擎的構(gòu)建標(biāo)準(zhǔn)已與三年前截然不同。本文首次對(duì)大規(guī)模網(wǎng)頁(yè)搜索引擎的底層架構(gòu)進(jìn)行深度公開(kāi)剖析,重點(diǎn)探討了如何將傳統(tǒng)檢索技術(shù)擴(kuò)展至前所未有的數(shù)據(jù)規(guī)模,并創(chuàng)新性地引入超文本中的附加信息(如鏈接結(jié)構(gòu)與鏈接文本)以優(yōu)化搜索質(zhì)量。針對(duì)Web環(huán)境下用戶可自由發(fā)布任意鏈接內(nèi)容帶來(lái)的噪聲問(wèn)題,本文提出了一套實(shí)用的過(guò)濾與處理方案。