抓取和收錄
當你看到出現在Google的搜索結果的那個網頁之前,Google在后臺已經做了許多步驟。Google的第一步是抓取和收錄互聯網上的數十億的網頁,這個工作時由Google的機器人Googlebot來完成的,它瀏覽網絡服務器抓取文件。 抓取的程序并不是漫無目的地在互聯網上瞎逛,它訪問服務器的特定的網頁,然后掃描網頁上的超文本鏈接,如果有新的文件也是這樣抓取得;蜘蛛程序給每個得到的網頁一個號碼,這個號碼指向它抓取的網頁。
蜘蛛程序抓取了很多的網頁,但這些網頁還不是便于搜索的。如果沒有一個索引,你要查詢一個詞,比如“國內戰爭”,Google的服務器每次都要讀取每一個文件的所有內容。
因此,第二步就是建立索引。我們不是去掃描每一個文件的所有內容,我們巧妙地進行數據的“轉換”,列出每一個文件所包含的特定的詞,例如,“國內”這個詞可能出現在文件3,8,22,56,68和92當中,而“戰爭”這個詞出現在文件2,8,15,22,68和77中。
建立好索引之后,我們就可以開始對網頁進行評級,決定網頁的相關程度。假設有人在Google的搜索欄輸入“國內戰爭”進行查詢,為了提交搜索結果和對結果進行評分,我們要做兩件事:
1. 找到包含用戶查詢的詞的網頁
2. 給符合的網頁按照相關程度進行評級
Google開發出一個有趣的技巧來加速第一步:Google不是把整個索引存儲在一臺功能強大的計算機上,而是用千百個計算機來存儲這些信息。因為任務被分解到許多的計算機,可以更快地找到所需的答案。 詳細解釋一下,假設一本書的目錄有30頁,如果一個人要在目錄中查尋資料,每次查詢都要花幾秒鐘;如果用30個人每人查詢一頁目錄,顯然要比一個人查詢的速度快很多。同樣的,Google將數據分別存儲在許多計算機上,這樣搜索的速度會大大加快。
我們是如何找到那些包含用戶搜索的詞的網頁呢?回到“國內戰爭”的例子,“國內”這個詞出現在文件3,8, 22, 56, 68 和92; “戰爭”出現在文件2, 8, 15, 22, 68和77,記下同時出現這兩個詞的文件。
國內 3 8 22 56 68 92
戰爭 2 8 15 22 68 77
國內 戰爭 8 22 68
Copyright@ 2011-2016 版權所有:大連千億科技有限公司 遼ICP備11013762-3號 google網站地圖 百度網站地圖 網站地圖
公司地址:大連市沙河口區中山路692號辰熙星海國際2317 客服電話:0411-39943997 QQ:2088827823 37482752
法律聲明:未經許可,任何模仿本站模板、轉載本站內容等行為者,本站保留追究其法律責任的權利! 隱私權政策聲明