Google收錄及排序網頁流程揭秘

作者：billionnet 發布于:2012/6/11 11:28:08 點擊量：

抓取和收錄

當你看到出現在Google的搜索結果的那個網頁之前，Google在后臺已經做了許多步驟。Google的第一步是抓取和收錄互聯網上的數十億的網頁，這個工作時由Google的機器人Googlebot來完成的，它瀏覽網絡服務器抓取文件。抓取的程序并不是漫無目的地在互聯網上瞎逛，它訪問服務器的特定的網頁，然后掃描網頁上的超文本鏈接，如果有新的文件也是這樣抓取得；蜘蛛程序給每個得到的網頁一個號碼，這個號碼指向它抓取的網頁。

蜘蛛程序抓取了很多的網頁，但這些網頁還不是便于搜索的。如果沒有一個索引，你要查詢一個詞，比如“國內戰爭”，Google的服務器每次都要讀取每一個文件的所有內容。

因此，第二步就是建立索引。我們不是去掃描每一個文件的所有內容，我們巧妙地進行數據的“轉換”，列出每一個文件所包含的特定的詞，例如，“國內”這個詞可能出現在文件3，8，22，56，68和92當中，而“戰爭”這個詞出現在文件2，8，15，22，68和77中。

建立好索引之后，我們就可以開始對網頁進行評級，決定網頁的相關程度。假設有人在Google的搜索欄輸入“國內戰爭”進行查詢，為了提交搜索結果和對結果進行評分，我們要做兩件事：

1. 找到包含用戶查詢的詞的網頁

2. 給符合的網頁按照相關程度進行評級

Google開發出一個有趣的技巧來加速第一步：Google不是把整個索引存儲在一臺功能強大的計算機上，而是用千百個計算機來存儲這些信息。因為任務被分解到許多的計算機，可以更快地找到所需的答案。詳細解釋一下，假設一本書的目錄有30頁，如果一個人要在目錄中查尋資料，每次查詢都要花幾秒鐘；如果用30個人每人查詢一頁目錄，顯然要比一個人查詢的速度快很多。同樣的，Google將數據分別存儲在許多計算機上，這樣搜索的速度會大大加快。

我們是如何找到那些包含用戶搜索的詞的網頁呢？回到“國內戰爭”的例子，“國內”這個詞出現在文件3，8， 22， 56， 68 和92; “戰爭”出現在文件2， 8， 15， 22， 68和77，記下同時出現這兩個詞的文件。

國內　3 8 22 56 68 92

戰爭　2 8 15 22 68 77

國內　戰爭 8 22 68

本文地址：http://www.fjlhjv.cn/b/201261231.html

分享到：

【刷新頁面】【加入收藏】【打印此文】【關閉窗口】

上一篇：影響google信任指數的13因素分析
下一篇：SEO常用高級搜索語法小結

公司地址：大連市沙河口區中山路692號辰熙星海國際2317 客服電話：0411-39943997 QQ：2088827823 37482752

法律聲明：未經許可，任何模仿本站模板、轉載本站內容等行為者，本站保留追究其法律責任的權利！隱私權政策聲明