亚洲av成人精品日韩在线播放,无码丰满熟妇,亚洲av无码国产精品麻豆天美

論壇徽章:: 0

電梯直達

1樓 [收藏(0)] [報告]

發(fā)表于 2011-09-07 19:09 |只看該作者 |倒序瀏覽

這篇文章中，我們介紹了google，它是一個大型的搜索引擎（of a large-scale search engine）的原型，搜索引擎在超文本中應用廣泛。Google的設計能夠高效地抓網(wǎng)頁并建立索引，它的查詢結果比其它現(xiàn)有系統(tǒng)都高明。這個原型的全文和超連接的數(shù)據(jù)庫至少包含24‘000‘000個網(wǎng)頁。我們可以從http://google.stanford.edu/ 下載。
設計搜索引擎是一項富有挑戰(zhàn)性的工作。搜索引擎為上億個網(wǎng)頁建立索引，其中包含大量迥然不同的詞匯。而且每天要回答成千上萬個查詢。在網(wǎng)絡中，盡管大型搜索引擎非常重要，但是學術界卻很少研究它。此外由于技術的快速發(fā)展和網(wǎng)頁的大量增加，現(xiàn)在建立一個搜索引擎和三年前完全不同。
本文詳細介紹了我們的大型搜索引擎，據(jù)我們所知，在公開發(fā)表的論文中，這是第一篇描述地如此詳細。除了把傳統(tǒng)數(shù)據(jù)搜索技術應用到如此大量級網(wǎng)頁中所遇到的問題，還有許多新的技術挑戰(zhàn)，包括應用超文本中的附加信息改進搜索結果。
本文將解決這個問題，描述如何運用超文本中的附加信息，建立一個大型實用系統(tǒng)。任何人都可以在網(wǎng)上隨意發(fā)布信息，如何有效地處理這些無組織的超文本集合，也是本文要關注的問題。
關鍵詞 World Wide Web，搜索引擎，信息檢索，PageRank, Google 1 緒論 Web 給信息檢索帶來了新的挑戰(zhàn)。Web上的信息量快速增長，同時不斷有毫無經(jīng)驗的新用戶來體驗Web這門藝術。人們喜歡用超級鏈接來網(wǎng)上沖浪，通常都以象Yahoo這樣重要的網(wǎng)頁或搜索引擎開始。大家認為List(目錄)有效地包含了大家感興趣的主題，但是它具有主觀性，建立和維護的代價高，升級慢，不能包括所有深奧的主題�；陉P鍵詞的自動搜索引擎通常返回太多的低質(zhì)量的匹配。使問題更遭的是，一些廣告為了贏得人們的關注想方設法誤導自動搜索引擎。
我們建立了一個大型搜索引擎解決了現(xiàn)有系統(tǒng)中的很多問題。應用超文本結構，大大提高了查詢質(zhì)量。我們的系統(tǒng)命名為google，取名自googol的通俗拼法，即10的100次方，這和我們的目標建立一個大型搜索引擎不謀而合。
1.1網(wǎng)絡搜索引擎—升級換代（scaling up）：1994-2000 搜索引擎技術不得不快速升級（scale dramatically）跟上成倍增長的web數(shù)量。1994年，第一個Web搜索引擎，World Wide Web Worm(WWWW)可以檢索到110，000個網(wǎng)頁和Web的文件。到1994年11月，頂級的搜索引擎聲稱可以檢索到2‘000'000（WebCrawler）至100‘000'000個網(wǎng)絡文件（來自 Search Engine Watch）。可以預見到2000年，可檢索到的網(wǎng)頁將超過1‘000'000‘000。同時，搜索引擎的訪問量也會以驚人的速度增長。在1997年的三四月份，World Wide Web Worm 平均每天收到1500個查詢。
在1997年11月，Altavista 聲稱它每天要處理大約20'000'000個查詢。隨著網(wǎng)絡用戶的增長，到2000年，自動搜索引擎每天將處理上億個查詢。我們系統(tǒng)的設計目標要解決許多問題，包括質(zhì)量和可升級性，引入升級搜索引擎技術（scaling search engine technology），把它升級到如此大量的數(shù)據(jù)上。
1.2 Google：跟上Web的步伐（Scaling with the Web）建立一個能夠和當今web規(guī)模相適應的搜索引擎會面臨許多挑戰(zhàn)。抓網(wǎng)頁技術必須足夠快，才能跟上網(wǎng)頁變化的速度（keep them up to date）。存儲索引和文檔的空間必須足夠大。索引系統(tǒng)必須能夠有效地處理上千億的數(shù)據(jù)。處理查詢必須快，達到每秒能處理成百上千個查詢（hundreds to thousands per second.）。隨著Web的不斷增長，這些任務變得越來越艱巨。然而硬件的執(zhí)行效率和成本也在快速增長，可以部分抵消這些困難。

文庫|博客

如何通過修改DNS提升網(wǎng)站訪問速度.pdf
Java編程入門官方教程(第7版).pdf
網(wǎng)站開發(fā)常用輔助工具.pdf
新站如何優(yōu)化才能加快收錄.pdf
什么樣的代碼才是好代碼.pdf
使用正則表達式與lex實現(xiàn)詞法分析器
C語言的MIPS匯編實現(xiàn)（四）SWITCH
Requested init /linuxrc failed (error -2).
比較 csv 文件中數(shù)據(jù)差異
LMD ElPack v2019.7新版亮點：Transparent mode全新升級|附下載

心如止水_00

小富即安

論壇徽章:: 0

2樓 [報告]

發(fā)表于 2011-09-07 19:11 |只看該作者

還有幾個值得注意的因素，如磁盤的尋道時間（disk seek time），操作系統(tǒng)的效率（operating system robustness）。在設計Google的過程中，我們既考慮了Web的增長速度，又考慮了技術的更新。Google的設計能夠很好的升級處理海量數(shù)據(jù)集。它能夠有效地利用存儲空間來存儲索引。優(yōu)化的數(shù)據(jù)結構能夠快速有效地存�。▍⒖�4.2節(jié)）。進一步，我們希望，相對于所抓取的文本文件和HTML網(wǎng)頁的數(shù)量而言，存儲和建立索引的代價盡可能的小（參考附錄B）。對于象Google這樣的集中式系統(tǒng)，采取這些措施得到了令人滿意的系統(tǒng)可升級性（scaling properties）。
1. 3設計目標
1.3.1提高搜索質(zhì)量我們的主要目標是提高Web搜索引擎的質(zhì)量。1994年，有人認為建立全搜索索引（a complete search index）可以使查找任何數(shù)據(jù)都變得容易。根據(jù)Best of the Web 1994 -- Navigators ，“最好的導航服務可以使在Web上搜索任何信息都很容易（當時所有的數(shù)據(jù)都可以被登錄）”。然而1997年的Web就迥然不同。近來搜索引擎的用戶已經(jīng)證實索引的完整性不是評價搜索質(zhì)量的唯一標準。用戶感興趣的搜索結果往往湮沒在“垃圾結果Junk result”中。實際上，到1997年11月為止，四大商業(yè)搜索引擎中只有一個能夠找到它自己（搜索自己名字時返回的前十個結果中有它自己）。導致這一問題的主要原因是文檔的索引數(shù)目增加了好幾個數(shù)量級，但是用戶能夠看的文檔數(shù)卻沒有增加。用戶仍然只希望看前面幾十個搜索結果。因此，當集合增大時，我們就需要工具使結果精確（在返回的前幾十個結果中，有關文檔的數(shù)量）。由于是從成千上萬個有點相關的文檔中選出幾十個，實際上，相關的概念就是指最好的文檔。高精確非常重要，甚至以響應（系統(tǒng)能夠返回的有關文檔的總數(shù)）為代價。令人高興的是利用超文本鏈接提供的信息有助于改進搜索和其它應用。尤其是鏈接結構和鏈接文本，為相關性的判斷和高質(zhì)量的過濾提供了大量的信息。Google既利用了鏈接結構又用到了anchor文本（見2.1和2.2節(jié)）。
1.3.2搜索引擎的學術研究隨著時間的流逝，除了發(fā)展迅速，Web越來越商業(yè)化。1993年，只有1.5%的Web服務是來自.com域名。到1997年，超過了60%。同時，搜索引擎從學術領域走進商業(yè)。到現(xiàn)在大多數(shù)搜索引擎被公司所有，很少技公開術細節(jié)。這就導致搜索引擎技術很大程度上仍然是暗箱操作，并傾向做廣告（見附錄A）。Google的主要目標是推動學術領域在此方面的發(fā)展，和對它的了解。另一個設計目標是給大家一個實用的系統(tǒng)。應用對我們來說非常重要，因為現(xiàn)代網(wǎng)絡系統(tǒng)中存在大量的有用數(shù)據(jù)（us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems）。例如，每天有幾千萬個研究。然而，得到這些數(shù)據(jù)卻非常困難，主要因為它們沒有商業(yè)價值。我們最后的設計目標是建立一個體系結構能夠支持新的關于海量Web數(shù)據(jù)的研究。為了支持新研究，Google以壓縮的形式保存了實際所抓到的文檔。設計google的目標之一就是要建立一個環(huán)境使其他研究者能夠很快進入這個領域，處理海量Web數(shù)據(jù)，得到滿意的結果，而通過其它方法卻很難得到結果。系統(tǒng)在短時間內(nèi)被建立起來，已經(jīng)有幾篇論文用到了Google建的數(shù)據(jù)庫，更多的在起步中。我們的另一個目標是建立一個宇宙空間實驗室似的環(huán)境，在這里研究者甚至學生都可以對我們的海量Web數(shù)據(jù)設計或做一些實驗。

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數(shù)據(jù)庫RadonDB知多少？

心如止水_00

小富即安

論壇徽章:: 0

3樓 [報告]

發(fā)表于 2011-09-07 19:13 |只看該作者

2. 系統(tǒng)特點 Google搜索引擎有兩個重要特點，有助于得到高精度的搜索結果。
第一點，應用Web的鏈接結構計算每個網(wǎng)頁的Rank值，稱為PageRank，將在98頁詳細描述它。
第二點，Google利用超鏈接改進搜索結果。
2.1 PageRank:給網(wǎng)頁排序 Web的引用（鏈接）圖是重要的資源，卻被當今的搜索引擎很大程度上忽視了。我們建立了一個包含518‘000'000個超鏈接的圖，它是一個具有重要意義的樣本。這些圖能夠快速地計算網(wǎng)頁的PageRank值，它是一個客觀的標準，較好的符合人們心目中對一個網(wǎng)頁重要程度的評價，建立的基礎是通過引用判斷重要性。因此在web中，PageRank能夠優(yōu)化關鍵詞查詢的結果。對于大多數(shù)的主題，在網(wǎng)頁標題查詢中用PageRank優(yōu)化簡單文本匹配，我們得到了令人驚嘆的結果（從google.stanford.edu可以得到演示）。對于Google主系統(tǒng)中的全文搜索，PageRank也幫了不少忙。
2.1.1計算PageRank 文獻檢索中的引用理論用到Web中，引用網(wǎng)頁的鏈接數(shù)，一定程度上反映了該網(wǎng)頁的重要性和質(zhì)量。PageRank發(fā)展了這種思想，網(wǎng)頁間的鏈接是不平等的。
PageRank定義如下: 我們假設T1…Tn指向網(wǎng)頁A（例如，被引用）。參數(shù)d是制動因子，使結果在0，1之間。通常d等于0.85。在下一節(jié)將詳細介紹d。C（A）定義為網(wǎng)頁A指向其它網(wǎng)頁的鏈接數(shù)，網(wǎng)頁A的PageRank值由下式給出： PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意PageRank的形式，分布到各個網(wǎng)頁中，因此所有網(wǎng)頁的PageRank和是1。 PageRank或PR（A）可以用簡單的迭代算法計算，相應規(guī)格化Web鏈接矩陣的主特征向量。中等規(guī)模的網(wǎng)站計算26‘000'000網(wǎng)頁的PageRank值要花費幾小時。還有一些技術細節(jié)超出了本文論述的范圍。
2.1.2直覺判斷 PageRank被看作用戶行為的模型。我們假設網(wǎng)上沖浪是隨機的，不斷點擊鏈接，從不返回，最終煩了，另外隨機選一個網(wǎng)頁重新開始沖浪。隨機訪問一個網(wǎng)頁的可能性就是它的PageRank值。制動因子d是隨機訪問一個網(wǎng)頁煩了的可能性，隨機另選一個網(wǎng)頁。對單個網(wǎng)頁或一組網(wǎng)頁，一個重要的變量加入到制動因子d中。這允許個人可以故意地誤導系統(tǒng)，以得到較高的PageRank值。我們還有其它的PageRank算法，見98頁。
另外的直覺判斷是一個網(wǎng)頁有很多網(wǎng)頁指向它，或者一些PageRank值高的網(wǎng)頁指向它，則這個網(wǎng)頁很重要。直覺地，在Web中，一個網(wǎng)頁被很多網(wǎng)頁引用，那么這個網(wǎng)頁值得一看。一個網(wǎng)頁被象Yahoo這樣重要的主頁引用即使一次，也值得一看。如果一個網(wǎng)頁的質(zhì)量不高，或者是死鏈接，象Yahoo這樣的主頁不會鏈向它。PageRank處理了這兩方面因素，并通過網(wǎng)絡鏈接遞歸地傳遞。
2.2鏈接描述文字（Anchor Text）我們的搜索引擎對鏈接文本進行了特殊的處理。大多數(shù)搜索引擎把鏈接文字和它所鏈向的網(wǎng)頁（the page that the link is on）聯(lián)系起來。另外，把它和鏈接所指向的網(wǎng)頁聯(lián)系起來。這有幾點好處。
第一，通常鏈接描述文字比網(wǎng)頁本身更精確地描述該網(wǎng)頁。
第二，鏈接描述文字可能鏈向的文檔不能被文本搜索引擎檢索到，例如圖像，程序和數(shù)據(jù)庫。有可能使返回的網(wǎng)頁不能被抓到。注意哪些抓不到的網(wǎng)頁將會帶來一些問題。在返回給用戶前檢測不了它們的有效性。這種情況搜索引擎可能返回一個根本不存在的網(wǎng)頁，但是有超級鏈接指向它。然而這種結果可以被挑出來的，所以此類的問題很少發(fā)生。鏈接描述文字是對被鏈向網(wǎng)頁的宣傳，這個思想被用在World Wide Web Worm 中，主要因為它有助于搜索非文本信息，能夠用少量的已下載文檔擴大搜索范圍。我們大量應用鏈接描述文字，因為它有助于提高搜索結果的質(zhì)量。有效地利用鏈接描述文字技術上存在一些困難，因為必須處理大量的數(shù)據(jù)。現(xiàn)在我們能抓到24‘000'000個網(wǎng)頁，已經(jīng)檢索到259‘000'000多個鏈接描述文字。
2.3其它特點除了PageRank和應用鏈接描述文字外，Google還有一些其它特點。
第一,所有hit都有位置信息，所以它可以在搜索中廣泛應用鄰近性（proximity）。
第二，Google跟蹤一些可視化外表細節(jié)，例如字號。黑體大號字比其它文字更重要。
第三，知識庫存儲了原始的全文html網(wǎng)頁。

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數(shù)據(jù)庫RadonDB知多少？

心如止水_00

小富即安

論壇徽章:: 0

4樓 [報告]

發(fā)表于 2011-09-07 19:13 |只看該作者

3有關工作 Web檢索研究的歷史簡短。World Wide Web Worm（）是最早的搜索引擎之一。后來出現(xiàn)了一些用于學術研究的搜索引擎，現(xiàn)在它們中的大多數(shù)被上市公司擁有。與Web的增長和搜索引擎的重要性相比，有關當今搜索引擎技術的優(yōu)秀論文相當少。根據(jù)Michael Mauldin（Lycos Inc的首席科學家）) ，“各種各樣的服務（包括Lycos）非常關注這些數(shù)據(jù)庫的細節(jié)。”雖然在搜索引擎的某些特點上做了大量工作。具有代表性的工作有，對現(xiàn)有商業(yè)搜索引擎的結果進行傳遞，或建立小型的個性化的搜索引擎。最后有關信息檢索系統(tǒng)的研究很多，尤其在有組織機構集合（well controlled collections）方面。在下面兩節(jié)，我們將討論在信息檢索系統(tǒng)中的哪些領域需要改進以便更好的工作在Web上。
3.1信息檢索信息檢索系統(tǒng)誕生在幾年前，并發(fā)展迅速。然而大多數(shù)信息檢索系統(tǒng)研究的對象是小規(guī)模的單一的有組織結構的集合，例如科學論文集，或相關主題的新聞故事。實際上，信息檢索的主要基準，the Text Retrieval Conference（），用小規(guī)模的、有組織結構的集合作為它們的基準。
大型文集基準只有20GB，相比之下，我們抓到的24000000個網(wǎng)頁占147GB。在TREC上工作良好的系統(tǒng)，在Web上卻不一定產(chǎn)生好的結果。例如，標準向量空間模型企圖返回和查詢請求最相近的文檔，把查詢請求和文檔都看作由出現(xiàn)在它們中的詞匯組成的向量。在Web環(huán)境下，這種策略常常返回非常短的文檔，這些文檔往往是查詢詞再加幾個字。例如，查詢“Bill Clinton”，返回的網(wǎng)頁只包含“Bill Clinton Sucks”，這是我們從一個主要搜索引擎中看到的。網(wǎng)絡上有些爭議，用戶應該更準確地表達他們想查詢什么，在他們的查詢請求中用更多的詞。我們強烈反對這種觀點。如果用戶提出象“Bill Clinton”這樣的查詢請求，應該得到理想的查詢結果，因為這個主題有許多高質(zhì)量的信息。象所給的例子，我們認為信息檢索標準需要發(fā)展，以便有效地處理Web數(shù)據(jù)。
3.2有組織結構的集合（Well Controlled Collections）與Web的不同點 Web是完全無組織的異構的大量文檔的集合。Web中的文檔無論內(nèi)在信息還是隱含信息都存在大量的異構性。例如，文檔內(nèi)部就用了不同的語言（既有人類語言又有程序），詞匯（email地址，鏈接，郵政編碼，電話號碼，產(chǎn)品號），類型（文本，HTML，PDF，圖像，聲音），有些甚至是機器創(chuàng)建的文件（log文件，或數(shù)據(jù)庫的輸出）。可以從文檔中推斷出來，但并不包含在文檔中的信息稱為隱含信息。隱含信息包括來源的信譽，更新頻率，質(zhì)量，訪問量和引用。不但隱含信息的可能來源各種各樣，而且被檢測的信息也大不相同，相差可達好幾個數(shù)量級。例如，一個重要主頁的使用量，象Yahoo 每天瀏覽數(shù)達到上百萬次，于此相比無名的歷史文章可能十年才被訪問一次。很明顯，搜索引擎對這兩類信息的處理是不同的。 Web與有組織結構集合之間的另外一個明顯區(qū)別是，事實上，向Web上傳信息沒有任何限制。靈活利用這點可以發(fā)布任何對搜索引擎影響重大的信息，使路由阻塞，加上為牟利故意操縱搜索引擎，這些已經(jīng)成為一個嚴重的問題。這些問題還沒有被傳統(tǒng)的封閉的信息檢索系統(tǒng)所提出來。它關心的是元數(shù)據(jù)的努力，這在Web搜索引擎中卻不適用，因為網(wǎng)頁中的任何文本都不會向用戶聲稱企圖操縱搜索引擎。甚至有些公司為牟利專門操縱搜索引擎。

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數(shù)據(jù)庫RadonDB知多少？

心如止水_00

小富即安

論壇徽章:: 0

5樓 [報告]

發(fā)表于 2011-09-07 19:14 |只看該作者

4 系統(tǒng)分析（System Anatomy）首先，我們提供高水平的有關體系結構的討論。然后，詳細描述重要的數(shù)據(jù)結構。最后，主要應用：抓網(wǎng)頁，索引，搜索將被嚴格地檢查。 Figure 1. High Level Google Architecture 4.1Google體系結構概述這一節(jié)，我們將看看整個系統(tǒng)是如何工作的（give a high level），見圖1。本節(jié)不討論應用和數(shù)據(jù)結構，在后幾節(jié)中討論。為了效率大部分Google是用c或c++實現(xiàn)的，既可以在Solaris也可以在Linux上運行。
Google系統(tǒng)中，抓網(wǎng)頁（下載網(wǎng)頁）是由幾個分布式crawlers完成的。一個URL服務器負責向crawlers提供URL列表。抓來的網(wǎng)頁交給存儲服務器storeserver。然后，由存儲服務器壓縮網(wǎng)頁并把它們存到知識庫repository中。每個網(wǎng)頁都有一個ID，稱作docID，當新URL從網(wǎng)頁中分析出時，就被分配一個docID。由索引器和排序器負責建立索引index function。索引器從知識庫中讀取文檔，對其解壓縮和分析。每個文檔被轉(zhuǎn)換成一組詞的出現(xiàn)情況，稱作命中hits。Hits紀錄了詞，詞在文檔中的位置，最接近的字號，大小寫。索引器把這些hits分配到一組桶barrel中，產(chǎn)生經(jīng)過部分排序后的索引。索引器的另一個重要功能是分析網(wǎng)頁中所有的鏈接，將有關的重要信息存在鏈接描述anchors文件中。該文件包含了足夠的信息，可以用來判斷每個鏈接鏈出鏈入節(jié)點的信息，和鏈接文本。 URL分解器resolver閱讀鏈接描述anchors文件，并把相對URL轉(zhuǎn)換成絕對URL，再轉(zhuǎn)換成docID。為鏈接描述文本編制索引，并與它所指向的docID關聯(lián)起來。同時建立由docID對組成的鏈接數(shù)據(jù)庫。用于計算所有文檔的PageRank值。用docID分類后的barrels，送給排序器sorter，再根據(jù)wordID進行分類，建立反向索引inverted index。這個操作要恰到好處，以便幾乎不需要暫存空間。排序器還給出docID和偏移量列表，建立反向索引。一個叫DumpLexicon的程序把這個列表和由索引器產(chǎn)生的字典結合在一起，建立一個新的字典，供搜索器使用。這個搜索器就是利用一個Web服務器，使用由DumpLexicon所生成的字典，利用上述反向索引以及頁面等級PageRank來回答用戶的提問。 4.2主要數(shù)據(jù)結構經(jīng)過優(yōu)化的Google數(shù)據(jù)結構，能夠用較小的代價抓取大量文檔，建立索引和查詢。雖然近幾年CPU和輸入輸出速率迅速提高。磁盤尋道仍然需要10ms。任何時候Google系統(tǒng)的設計都盡可能地避免磁盤尋道。這對數(shù)據(jù)結構的設計影響很大。
4.2.1大文件大文件BigFiles是指虛擬文件生成的多文件系統(tǒng)，用長度是64位的整型數(shù)據(jù)尋址。多文件系統(tǒng)之間的空間分配是自動完成的。BigFiles包也處理已分配和未分配文件描述符。由于操縱系統(tǒng)不能滿足我們的需要，BigFiles也支持基本的壓縮選項。
4.2.2知識庫 Figure 2. Repository Data Structure 知識庫包含每個網(wǎng)頁的全部HTML。每個網(wǎng)頁用zlib（見RFC1950）壓縮。壓縮技術的選擇既要考慮速度又要考慮壓縮率。我們選擇zlib的速度而不是壓縮率很高的bzip。知識庫用bzip的壓縮率接近4：1。而用zlib的壓縮率是3：1。文檔一個挨著一個的存儲在知識庫中，前綴是docID，長度，URL，見圖2。訪問知識庫不需要其它的數(shù)據(jù)結構。這有助于數(shù)據(jù)一致性和升級。用其它數(shù)據(jù)結構重構系統(tǒng)，我們只需要修改知識庫和crawler錯誤列表文件。
4.2.3文件索引文件索引保存了有關文檔的一些信息。索引以docID的順序排列，定寬ISAM（Index sequential access mode）。每條記錄包括當前文件狀態(tài)，一個指向知識庫的指針，文件校驗和，各種統(tǒng)計表。如果一個文檔已經(jīng)被抓到，指針指向docinfo文件，該文件的寬度可變，包含了URL和標題。否則指針指向包含這個URL的URL列表。這種設計考慮到簡潔的數(shù)據(jù)結構，以及在查詢中只需要一個磁盤尋道時間就能夠訪問一條記錄。還有一個文件用于把URL轉(zhuǎn)換成docID。它是URL校驗和與相應docID的列表，按校驗和排序。要想知道某個URL的docID，需要計算URL的校驗和，然后在校驗和文件中執(zhí)行二進制查找，找到它的docID。通過對這個文件進行合并，可以把一批URL轉(zhuǎn)換成對應的docID。URL分析器用這項技術把URL轉(zhuǎn)換成docID。這種成批更新的模式是至關重要的，否則每個鏈接都需要一次查詢，假如用一塊磁盤，322‘000'000個鏈接的數(shù)據(jù)集合將花費一個多月的時間。
4.2.4詞典詞典有幾種不同的形式。和以前系統(tǒng)的重要不同是，詞典對內(nèi)存的要求可以在合理的價格內(nèi)。現(xiàn)在實現(xiàn)的系統(tǒng)，一臺256M內(nèi)存的機器就可以把詞典裝入到內(nèi)存中。現(xiàn)在的詞典包含14000000詞匯（雖然一些很少用的詞匯沒有加入到詞典中）。它執(zhí)行分兩部分—詞匯表（用null分隔的連續(xù)串）和指針的哈希表。不同的函數(shù)，詞匯表有一些輔助信息，這超出了本文論述的范圍。
4.2.5 hit list hit list是一篇文檔中所出現(xiàn)的詞的列表，包括位置，字號，大小寫。Hit list占很大空間，用在正向和反向索引中。因此，它的表示形式越有效越好。我們考慮了幾種方案來編碼位置，字號，大小寫—簡單編碼（3個整型數(shù)），緊湊編碼（支持優(yōu)化分配比特位），哈夫曼編碼。Hit的詳細信息見圖3。我們的緊湊編碼每個hit用2字節(jié)。有兩種類型hit，特殊hit和普通hit。特殊hit包含URL，標題，鏈接描述文字，meta tag。普通hit包含其它每件事。它包括大小寫特征位，字號，12比特用于描述詞在文檔中的位置（所有超過4095的位置標記為4096）。字號采用相對于文檔的其它部分的相對大小表示，占3比特(實際只用7個值，因為111標志是特殊hit)。特殊hit由大小寫特征位，字號位為7表示它是特殊hit，用4比特表示特殊hit的類型，8比特表示位置。對于anchor hit八比特位置位分出4比特用來表示在anchor中的位置，4比特用于表明anchor出現(xiàn)的哈希表hash of the docID。短語查詢是有限的，對某些詞沒有足夠多的anchor。我們希望更新anchor hit的存儲方式，以便解決地址位和docIDhash域位數(shù)不足的問題。
因為搜索時，你不會因為文檔的字號比別的文檔大而特殊對待它，所以采用相對字號。 hit表的長度存儲在hit前。為節(jié)省空間hit表長度，在正向索引中和wordID結合在一起，在反向索引中和docID結合存儲。這就限制它相應地只占8到5比特（用些技巧，可以從wordID中借8bit）如果大于這些比特所能表示的長度，用溢出碼填充，其后兩字節(jié)是真正的長度。 Figure 3. Forward and Reverse Indexes and the Lexicon
4.2.6正向索引實際上，正向索引已經(jīng)部分排序。它被存在一定數(shù)量的barrel中（我們用64個barrels）。每個barrel裝著一定范圍的wordID。如果一篇文檔中的詞落到某個barrel，它的docID將被記錄到這個barrel中，緊跟著那些詞（文檔中所有的詞匯，還是落入該barrel中的詞匯）對應的hitlist。這種模式需要稍多些的存儲空間，因為一個docID被用多次，但是它節(jié)省了桶數(shù)和時間，最后排序器進行索引時降低編碼的復雜度。更進一步的措施是，我們不是存儲docID本身，而是存儲相對于該桶最小的docID的差。用這種方法，未排序的barrel的docID只需24位，省下8位記錄hitlist長。
4.2.7反向索引除了反向索引由sorter加工處理之外，它和正向索引包含相同的桶。對每個有效的docID，字典包含一個指向該詞所在桶的指針。它指向由docID和它的相應hitlist組成的doclish，這個doclist代表了所有包含該詞的文檔。 doclist中docID的順序是一個重要的問題。最簡單的解決辦法是用doclish排序。這種方法合并多個詞時很快。另一個可選方案是用文檔中該詞出現(xiàn)的次數(shù)排序。這種方法回答單詞查詢，所用時間微不足道。當多詞查詢時幾乎是從頭開始。并且當用其它Rank算法改進索引時，非常困難。我們綜合了這兩種方法，建立兩組反向索引barrel，一組barrels的hitlist只包含標題和anchor hit，另一組barrel包含全部的hitlist。我們首先查第一組索引桶，看有沒有匹配的項，然后查較大的那組桶。
4.3抓網(wǎng)頁運行網(wǎng)絡爬行機器人是一項具有挑戰(zhàn)性的任務。執(zhí)行的性能和可靠性甚至更重要，還有一些社會焦點。網(wǎng)絡爬行是一項非常薄弱的應用，它需要成百上千的web服務器和各種域名服務器的參與，這些服務器不是我們系統(tǒng)所能控制的。為了覆蓋幾十億的網(wǎng)頁，Google擁有快速的分布式網(wǎng)絡爬行系統(tǒng)。一個URL服務器給若干個網(wǎng)絡爬行機器人（我們采用3個）提供URL列表。URL服務器和網(wǎng)絡爬行機器人都是用Python實現(xiàn)的。每個網(wǎng)絡爬行機器人可以同時打開300個鏈接。抓取網(wǎng)頁必須足夠快。最快時，用4個網(wǎng)絡爬行機器人每秒可以爬行100個網(wǎng)頁。速率達每秒600K。執(zhí)行的重點是找DNS。每個網(wǎng)絡爬行機器人有它自己的DNS cache，所以它不必每個網(wǎng)頁都查DNS。每一百個連接都有幾種不同的狀態(tài)：查DNS，連接主機，發(fā)送請求，接收回答。這些因素使網(wǎng)絡爬行機器人成為系統(tǒng)比較復雜的部分。它用異步IO處理事件，若干請求隊列從一個網(wǎng)站到另一個網(wǎng)站不停的抓取網(wǎng)頁。運行一個鏈接到500多萬臺服務器的網(wǎng)頁爬行機器人，產(chǎn)生1千多萬登陸口，導致了大量的Email和電話。因為網(wǎng)民眾多，總有些人不知道網(wǎng)絡爬行機器人是何物，這是他們看到的第一個網(wǎng)絡爬行機器人。幾乎每天我們都會收到這樣的Email“哦，你從我們的網(wǎng)站看了太多的網(wǎng)頁，你想干什么？”還有一些人不知道網(wǎng)絡搜索機器人避免協(xié)議（the robots exclusion protocol），以為他們的網(wǎng)頁上寫著“版權所有，勿被索引”的字樣就會被保護不被索引，不必說，這樣的話很難被web crawler理解。因為數(shù)據(jù)量如此之大，還會遇到一些意想不到的事情。例如，我們的系統(tǒng)曾經(jīng)企圖抓一個在線游戲，結果抓到了游戲中的大量垃圾信息。解決這個問題很簡單。但是我們下載了幾千萬網(wǎng)頁后才發(fā)現(xiàn)了這個問題。因為網(wǎng)頁和服務器的種類繁多，實際上不在大部分Internet上運行它就測試一個網(wǎng)頁爬行機器人是不可能�？偸怯袔装賯€隱含的問題發(fā)生在整個web的一個網(wǎng)頁上，導致網(wǎng)絡爬行機器人崩潰，或者更糟，導致不可預測的不正確的行為。能夠訪問大部分Internet的系統(tǒng)必須精力充沛并精心測試過。由于象crawler這樣大型復雜的系統(tǒng)總是產(chǎn)生這樣那樣的問題，因此花費一些資源讀這些Email，當問題發(fā)生時解決它，是有必要的。
4.4Web索引分析—任何運行在整個Web上的分析器必須能夠處理可能包含錯誤的大型集合。范圍從HTML標記到標記之間幾K字節(jié)的0，非ASCII字符，幾百層HTML標記的嵌套，各種各樣令人難以想象的錯誤。為了獲得最大的速度，我們沒有采用YACC產(chǎn)生上下文無關文法CFG分析器，而是采用靈活的方式產(chǎn)生詞匯分析器，它自己配有堆棧。分析器的改進大大提高了運行速度，它的精力如此充沛完成了大量工作。把文檔裝入barrel建立索引—分析完一篇文檔，之后把該文檔裝入barrel中，用內(nèi)存中的hash表—字典，每個詞匯被轉(zhuǎn)換成一個wordID。當hash表字典中加入新的項時，笨拙地存入文件。一旦詞匯被轉(zhuǎn)換成wordID，它們在當前文檔的出現(xiàn)就轉(zhuǎn)換成hitlist，被寫進正向barrel。索引階段并行的主要困難是字典需要共享。
我們采用的方法是，基本字典中有140萬個固定詞匯，不在基本字典中的詞匯寫入日志，而不是共享字典。這種方法多個索引器可以并行工作，最后一個索引器只需處理一個較小的額外詞匯日志。排序—為了建立反向索引，排序器讀取每個正向barrel，以wordID排序，建立只有標題anchor hi t的反向索引barrel和全文反向索引barrel。這個過程一次只處理一個barrel，所以只需要少量暫存空間。排序階段也是并行的，我們簡單地同時運行盡可能多的排序器，不同的排序器處理不同的桶。由于barrel不適合裝入主存，排序器進一步依據(jù)wordID和docID把它分成若干籃子，以便適合裝入主存。然后排序器把每個籃子裝入主存進行排序，并把它的內(nèi)容寫回到短反向barrel和全文反向barrel。
4.5搜索搜索的目標是提供有效的高質(zhì)量的搜索結果。多數(shù)大型商業(yè)搜索引擎好像在效率方面花費了很大力氣。因此我們的研究以搜索質(zhì)量為重點，相信我們的解決方案也可以用到那些商業(yè)系統(tǒng)中。
Google查詢評價過程見圖4。
1. 分析查詢。
2. 把詞匯轉(zhuǎn)換成wordID。
3. 在短barrel中查找每個詞匯doclist的開頭。
4. 掃描doclist直到找到一篇匹配所有關鍵詞的文檔
5. 計算該文檔的rank
6. 如果我們在短barrel，并且在所有doclist的末尾，開始從全文barrel的doclist的開頭查找每個詞，goto 第四步
7. 如果不在任何doclist的結尾，返回第四步。
8. 根據(jù)rank排序匹配文檔，返回前k個。圖4 Google查詢評價在有限的響應時間內(nèi)，一旦找到一定數(shù)量的匹配文檔，搜索引擎自動執(zhí)行步驟8。這意味著，返回的結果是子優(yōu)化的。我們現(xiàn)在研究其它方法來解決這個問題。過去根據(jù)PageRank排序hit，看來能夠改進這種狀況。
4.5.1 Ranking系統(tǒng) Google比典型搜索引擎保存了更多的web信息。每個hitlish包括位置，字號，大小寫。另外，我們還考慮了鏈接描述文字。Rank綜合所有這些信息是困難的。ranking函數(shù)設計依據(jù)是沒有某個因素對rank影響重大。首先，考慮最簡單的情況—單個詞查詢。為了單個詞查詢中一個文檔的rank，Goole在文檔的hitlist中查找該詞。Google認為每個hit是幾種不同類型（標題，鏈接描述文字anchor，URL，普通大字號文本，普通小字號文本，……）之一，每種有它自己的類型權重。類型權重建立了一個類型索引向量。Google計算hitlist中每種hit的數(shù)量。然后每個hit數(shù)轉(zhuǎn)換成count-weight。Count-weight開始隨hit數(shù)線性增加，很快逐漸停止，以至于hit數(shù)與此不相關。我們計算count-weight向量和type-weight向量的標量積作為文檔的IR值。最后IR值結合PageRank作為文檔的最后rank 對于多詞查詢，更復雜些�，F(xiàn)在，多詞hitlist必須同時掃描，以便關鍵詞出現(xiàn)在同一文檔中的權重比分別出現(xiàn)時高。相鄰詞的hit一起匹配。對每個匹配hit 的集合計算相鄰度。相鄰度基于hit在文檔中的距離，分成10個不同的bin值，范圍從短語匹配到根本不相關。不僅計算每類hit數(shù)，而且要計算每種類型的相鄰度，每個類型相似度對，有一個類型相鄰度權type-prox-weight。Count轉(zhuǎn)換成count-weight，計算count-weight type-proc-weight的標量積作為IR值。應用某種debug mode所有這些數(shù)和矩陣與查詢結果一起顯示出來。這些顯示有助于改進rank系統(tǒng)。
4.5.2反饋 rank函數(shù)有很多參數(shù)象type-weight和type-prox-weight。指明這些參數(shù)的正確值有點黑色藝術black art。為此，我們的搜索引擎有一個用戶反饋機制。值得信任的用戶可以隨意地評價返回的結果。保存反饋。然后，當修改rank函數(shù)時，對比以前搜索的rank，我們可以看到修改帶來的的影響。雖然不是十全十美，但是它給出了一些思路，當rank函數(shù)改變時對搜索結果的影響。

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數(shù)據(jù)庫RadonDB知多少？

心如止水_00

小富即安

論壇徽章:: 0

6樓 [報告]

發(fā)表于 2011-09-07 19:15 |只看該作者

5執(zhí)行和結果搜索結果的質(zhì)量是搜索引擎最重要的度量標準。完全用戶評價體系超出了本文的論述范圍，對于大多數(shù)搜索，我們的經(jīng)驗說明Google的搜索結果比那些主要的商業(yè)搜索引擎好。作為一個應用PageRank，鏈接描述文字，相鄰度的例子，圖4給出了Google搜索bill Clinton的結果。它說明了Google的一些特點。服務器對結果進行聚類。這對過濾結果集合相當有幫助。這個查詢，相當一部分結果來自whitehouse.gov域，這正是我們所需要的�，F(xiàn)在大多數(shù)商業(yè)搜索引擎不會返回任何來自whitehouse.gov的結果，這是相當不對的。注意第一個搜索結果沒有標題。因為它不是被抓到的。Google是根據(jù)鏈接描述文字決定它是一個好的查詢結果。同樣地，第五個結果是一個Email地址，當然是不可能抓到的。也是鏈接描述文字的結果。所有這些結果質(zhì)量都很高，最后檢查沒有死鏈接。因為它們中的大部分PageRank值較高。PageRank百分比用紅色線條表示。沒有結果只含Bill沒有Clinton或只含Clinton沒有Bill。因為詞出現(xiàn)的相近性非常重要。當然搜索引擎質(zhì)量的真實測試包含廣泛的用戶學習或結果分析，此處篇幅有限，請讀者自己去體驗Google，ttp://google.stanford.edu/ 。 5.1存儲需求除了搜索質(zhì)量，Google的設計可以隨著Web規(guī)模的增大而有效地增大成本。一方面有效地利用存儲空間。表1列出了一些統(tǒng)計數(shù)字的明細表和Google存儲的需求。由于壓縮技術的應用知識庫只需53GB的存儲空間。是所有要存儲數(shù)據(jù)的三分之一。按當今磁盤價格，知識庫相對于有用的數(shù)據(jù)來說比較便宜。搜索引擎需要的所有數(shù)據(jù)的存儲空間大約55GB。大多數(shù)查詢請求只需要短反向索引。文件索引應用先進的編碼和壓縮技術，一個高質(zhì)量的搜索引擎可以運行在7GB的新PC。
5.2系統(tǒng)執(zhí)行搜索引擎抓網(wǎng)頁和建立索引的效率非常重要。Google的主要操作是抓網(wǎng)頁，索引，排序。很難測試抓全部網(wǎng)頁需要多少時間，因為磁盤滿了，域名服務器崩潰，或者其它問題導致系統(tǒng)停止�？偟膩碚f，大約需要9天時間下載26000000網(wǎng)頁（包括錯誤）。然而，一旦系統(tǒng)運行順利，速度非�？欤螺d最后11000000網(wǎng)頁只需要63小時，平均每天4000000網(wǎng)頁，每秒48.5個網(wǎng)頁。索引器和網(wǎng)絡爬行機器人同步運行。索引器比網(wǎng)絡爬行機器人快。因為我們花費了大量時間優(yōu)化索引器，使它不是瓶頸。這些優(yōu)化包括批量更新文檔索引，本地磁盤數(shù)據(jù)結構的安排。索引器每秒處理54個網(wǎng)頁。排序器完全并行，用4臺機器，排序的整個過程大概需要24小時。
5.3搜索執(zhí)行改進搜索執(zhí)行不是我們研究的重點。當前版本的Google可以在1到10秒間回答查詢請求。時間大部分花費在NFS磁盤IO上（由于磁盤普遍比機器慢）。進一步說，Google沒有做任何優(yōu)化，例如查詢緩沖區(qū)，常用詞匯子索引，和其它常用的優(yōu)化技術。我們傾向于通過分布式，硬件，軟件，和算法的改進來提高Google的速度。我們的目標是每秒能處理幾百個請求。表2有幾個現(xiàn)在版本Google響應查詢時間的例子。它們說明IO緩沖區(qū)對再次搜索速度的影響。 6結論 Google設計成可伸縮的搜索引擎。主要目標是在快速發(fā)展的World Wide Web上提供高質(zhì)量的搜索結果。Google應用了一些技術改進搜索質(zhì)量包括PageRank，鏈接描述文字，相鄰信息。進一步說，Google是一個收集網(wǎng)頁，建立索引，執(zhí)行搜索請求的完整的體系結構。

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數(shù)據(jù)庫RadonDB知多少？

心如止水_00

小富即安

論壇徽章:: 0

7樓 [報告]

發(fā)表于 2011-09-07 19:16 |只看該作者

6.1未來的工作大型Web搜索引擎是個復雜的系統(tǒng)，還有很多事情要做。我們直接的目標是提高搜索效率，覆蓋大約100000000個網(wǎng)頁。一些簡單的改進提高了效率包括請求緩沖區(qū)，巧妙地分配磁盤空間，子索引。另一個需要研究的領域是更新。我們必須有一個巧妙的算法來決定哪些舊網(wǎng)頁需要重新抓取，哪些新網(wǎng)頁需要被抓取。這個目標已經(jīng)由實現(xiàn)了。受需求驅(qū)動，用代理cache創(chuàng)建搜索數(shù)據(jù)庫是一個有前途的研究領域。我們計劃加一些簡單的已經(jīng)被商業(yè)搜索引擎支持的特征，例如布爾算術符號，否定，填充。然而另外一些應用剛剛開始探索，例如相關反饋，聚類（Google現(xiàn)在支持簡單的基于主機名的聚類）。我們還計劃支持用戶上下文（象用戶地址），結果摘要。我們正在擴大鏈接結構和鏈接文本的應用。簡單的實驗證明，通過增加用戶主頁的權重或書簽，PageRank可以個性化。對于鏈接文本，我們正在試驗用鏈接周圍的文本加入到鏈接文本。Web搜索引擎提供了豐富的研究課題。如此之多以至于我們不能在此一一列舉，因此在不久的將來，我們希望所做的工作不止本節(jié)提到的。
6.2高質(zhì)量搜索當今Web搜索引擎用戶所面臨的最大問題是搜索結果的質(zhì)量。結果常常是好笑的，并且超出用戶的眼界，他們常�；倚膯蕷饫速M了寶貴的時間。例如，一個最流行的商業(yè)搜索引擎搜索“Bill Clillton”的結果是the Bill Clinton Joke of the Day: April 14, 1997。Google的設計目標是隨著Web的快速發(fā)展提供高質(zhì)量的搜索結果，容易找到信息。為此，Google大量應用超文本信息包括鏈接結構和鏈接文本。Google還用到了相鄰性和字號信息。評價搜索引擎是困難的，我們主觀地發(fā)現(xiàn)Google的搜索質(zhì)量比當今商業(yè)搜索引擎高。通過PageRank分析鏈接結構使Google能夠評價網(wǎng)頁的質(zhì)量。用鏈接文本描述鏈接所指向的網(wǎng)頁有助于搜索引擎返回相關的結果（某種程度上提高了質(zhì)量）。最后，利用相鄰性信息大大提高了很多搜索的相關性。
6.3可升級的體系結構除了搜索質(zhì)量，Google設計成可升級的。空間和時間必須高效，處理整個Web時固定的幾個因素非常重要。實現(xiàn)Google系統(tǒng)，CPU、訪存、內(nèi)存容量、磁盤尋道時間、磁盤吞吐量、磁盤容量、網(wǎng)絡IO都是瓶頸。在一些操作中，已經(jīng)改進的Google克服了一些瓶頸。Google的主要數(shù)據(jù)結構能夠有效利用存儲空間。進一步，網(wǎng)頁爬行，索引，排序已經(jīng)足夠建立大部分web索引，共24000000個網(wǎng)頁，用時不到一星期。我們希望能在一個月內(nèi)建立100000000網(wǎng)頁的索引。
6.4研究工具 Google不僅是高質(zhì)量的搜索引擎，它還是研究工具。Google搜集的數(shù)據(jù)已經(jīng)用在許多其它論文中，提交給學術會議和許多其它方式。最近的研究，例如，提出了Web查詢的局限性，不需要網(wǎng)絡就可以回答。這說明Google不僅是重要的研究工具，而且必不可少，應用廣泛。我們希望Google是全世界研究者的資源，帶動搜索引擎技術的更新?lián)Q代。 7致謝 Scott Hassan and Alan Steremberg評價了Google的改進。他們的才智無可替代，作者由衷地感謝他們。感謝Hector Garcia-Molina, Rajeev Motwani, Jeff Ullman, and Terry Winograd和全部WebBase開發(fā)組的支持和富有深刻見解的討論。最后感謝IBM，Intel，Sun和投資者的慷慨支持，為我們提供設備。這里所描述的研究是Stanford綜合數(shù)字圖書館計劃的一部分，由國家科學自然基金支持，合作協(xié)議號IRI-9411306。DARPA ，NASA，Interva研究，Stanford數(shù)字圖書館計劃的工業(yè)合作伙伴也為這項合作協(xié)議提供了資金。參考文獻 ?
Google的設計目標是可升級到10億網(wǎng)頁。我們的磁盤和機器大概能處理這么多網(wǎng)頁。系統(tǒng)各個部分耗費的總時間是并行的和線性的。包括網(wǎng)頁爬行機器人，索引器和排序器。擴展后我們認為大多數(shù)數(shù)據(jù)結構運行良好。然而10億網(wǎng)頁接近所有常用操作系統(tǒng)的極限（我們目前運行在Solaris和Linux上）。包括主存地址，開放文件描述符的數(shù)量，網(wǎng)絡socket和帶寬，以及其它因素。我們認為當網(wǎng)頁數(shù)量大大超過10億網(wǎng)頁時，會大大增加系統(tǒng)復雜性。 9.2集中式索引體系的可升級性隨著計算機性能的提高，海量文本索引的成本比較公平。當然帶寬需求高的其它應用如視頻，越來越普遍。但是，與多媒體例如視頻相比，文本產(chǎn)品的成本低，因此文本仍然普遍。

圖2 Google系統(tǒng)的工作流程圖
(注：原圖來自Sergey Brin and Lawrence Page, The Anatomy of a Large-Scale Hypertextual. Web Search Engine, 1998.http://www-db.stanford.edu/%7Ebackrub/Google.html)

①Google使用高速的分布式爬行器(Crawler)系統(tǒng)中的漫游遍歷器(Googlebot)定時地遍歷網(wǎng)頁，將遍歷到的網(wǎng)頁送到存儲服務器(Store Server)中。
②存儲服務器使用zlib格式壓縮軟件將這些網(wǎng)頁進行無損壓縮處理后存入數(shù)據(jù)庫Repository中。Repository獲得了每個網(wǎng)頁的完全Html代碼后，對其壓縮后的網(wǎng)頁及URL進行分析，記錄下網(wǎng)頁長度、URL、URL長度和網(wǎng)頁內(nèi)容，并賦予每個網(wǎng)頁一個文檔號(docID)，以便當系統(tǒng)出現(xiàn)故障的時候，可以及時完整地進行網(wǎng)頁的數(shù)據(jù)恢復。
③索引器(Indexer)從Repository中讀取數(shù)據(jù)，以后做以下四步工作：
④(a)將讀取的數(shù)據(jù)解壓縮后進行分析，它將網(wǎng)頁中每個有意義的詞進行統(tǒng)計后，轉(zhuǎn)化為關鍵詞(wordID)的若干索引項(Hits)，生成索引項列表，該列表包括關鍵詞、關鍵詞的位置、關鍵詞的大小和大小寫狀態(tài)等。索引項列表被存入到數(shù)據(jù)桶(Barrels)中，并生成以文檔號(docID)部分排序的順排檔索引。
索引項根據(jù)其重要程度分為兩種：當索引項中的關鍵詞出現(xiàn)在URL、標題、錨文本(Anchor Text)和標簽中時，表示該索引項比較重要，稱為特殊索引項(Fancy Hits)；其余情況則稱為普通索引項(Plain Hits)。在系統(tǒng)中每個Hit用兩個字節(jié)(byte)存儲結構表示：特殊索引項用1位(bit)表示大小寫，用二進制代碼111(占3位)表示是特殊索引項，其余12位有4位表示特殊索引項的類型(即hit是出現(xiàn)在URL、標題、鏈接結點還是標簽中)，剩下8位表示hit在網(wǎng)頁中的具體位置；普通索引項是用1位表示大小寫，3位表示字體大小，其余12位表示在網(wǎng)頁中的具體位置。

順排檔索引和Hit的存儲結構如圖3所示。

圖3 順排檔索引和Hit的存儲結構

值得注意的是，當特殊索引項來自Anchor Text時，特殊索引項用來表示位置的信息（8位）將分為兩部分：4位表示Anchor Text出現(xiàn)的具體位置，另4位則用來與表示Anchor Text所鏈接網(wǎng)頁的docID相連接，這個docID是由URL Resolver經(jīng)過轉(zhuǎn)化存入順排檔索引的。
(b)索引器除了對網(wǎng)頁中有意義的詞進行分析外，還分析網(wǎng)頁的所有超文本鏈接，將其Anchor Text、URL指向等關鍵信息存入到Anchor文檔庫中。
(c)索引器生成一個索引詞表(Lexicon)，它包括兩個部分：關鍵詞的列表和指針列表，用于倒排檔文檔相連接(如圖3所示)。
(d)索引器還將分析過的網(wǎng)頁編排成一個與Repository相連接的文檔索引(Document Index)，并記錄下網(wǎng)頁的URL和標題，以便可以準確查找出在Repository中存儲的原網(wǎng)頁內(nèi)容。而且把沒有分析的網(wǎng)頁傳給URL Server，以便在下一次工作流程中進行索引分析。
⑤URL分析器（URL Resolver）讀取Anchor文檔中的信息，然后做⑥中的工作。
⑥(a)將其錨文本(Anchor Text)所指向的URL轉(zhuǎn)換成網(wǎng)頁的docID；(b)將該docID與原網(wǎng)頁的docID形成“鏈接對”，存入Link數(shù)據(jù)庫中；(c)將Anchor Text指向的網(wǎng)頁的docID與順排檔特殊索引項Anchor Hits相連接。
⑦數(shù)據(jù)庫Link記錄了網(wǎng)頁的鏈接關系，用來計算網(wǎng)頁的PageRank值。
⑧文檔索引(Document Index)把沒有進行索引分析的網(wǎng)頁傳遞給URL Server，URL Server則向Crawler提供待遍歷的URL，這樣，這些未被索引的網(wǎng)頁在下一次工作流程中將被索引分析。
⑨排序器（Sorter）對數(shù)據(jù)桶(Barrels)的順排檔索引重新進行排序，生成以關鍵詞(wordID)為索引的倒排檔索引。倒排檔索引結構如圖4所示：

圖4 倒排檔索引結構
⑩將生成的倒排檔索引與先前由索引器產(chǎn)生的索引詞表(Lexicon)相連接產(chǎn)生一個新的索引詞表供搜索器(Searcher)使用。搜索器的功能是由網(wǎng)頁服務器實現(xiàn)的，根據(jù)新產(chǎn)生的索引詞表結合上述的文檔索引(Document Index)和Link數(shù)據(jù)庫計算的網(wǎng)頁PageRank值來匹配檢索。

在執(zhí)行檢索時，Google通常遵循以下步驟（以下所指的是單個檢索詞的情況）：
(1)將檢索詞轉(zhuǎn)化成相應的wordID；
(2)利用Lexicon，檢索出包含該wordID的網(wǎng)頁的docID；
(3)根據(jù)與Lexicon相連的倒排檔索引，分析各網(wǎng)頁中的相關索引項的情況，計算各網(wǎng)頁和檢索詞的匹配程度，必要時調(diào)用順排檔索引；
(4)根據(jù)各網(wǎng)頁的匹配程度，結合根據(jù)Link產(chǎn)生的相應網(wǎng)頁的PageRank情況，對檢索結果進行排序；
(5)調(diào)用Document Index中的docID及其相應的URL，將排序結果生成檢索結果的最終列表，提供給檢索用戶。
用戶檢索包含多個檢索詞的情況與以上單個檢索詞的情況類似：先做單個檢索詞的檢索，然后根據(jù)檢索式中檢索符號的要求進行必要的布爾操作或其他操作。