搜索引擎的蜘蛛抓取網站頁面的一般過程是這樣的。
首先,收集待索引網站網頁的url。
搜索引擎的蜘蛛一般分為兩類,這第一類的主要工作就是收集網頁的中有效的URL。它們的任務是一刻不停地掃描Internet資源,以隨時更新其搜索引擎龐大的url列表以供它的第二類蜘蛛使用。也就是說,當這一類蜘蛛訪問我們網頁的時候,并不在于索引我們的網頁,而是在尋找網頁中的所有有效鏈接。
關于有的站長在自己的訪問日志中發現多個蜘蛛IP爬自己站的情況。
我們常用的搜索引擎每天要處理數以億計的信息,沒有一個大型的搜索引擎公司(GOOGLE或百度之類)不配備上萬臺服務器來共同執行這個工作,因此搜索引擎都擁有不同的數據中心,也就是說有多個robots來檢索你的站是很正常的事情。
不過這也僅限于第一類蜘蛛,在索引頁面的時候,搜索引擎會限制某個特定的數據中心來讓專門索引頁面的蜘蛛檢索你的站。
因此朋友們從服務器訪問日志中時??梢钥吹皆醋圆煌琁P的蜘蛛,在很短的時間內頻繁訪問網站。不過千萬不要高興得太早,也許其根本不是在索引你的網頁而只是在掃描url。
補充一下,第一類蜘蛛索引時記錄的信息主要包括網頁的url、最終修改時間等
至于網頁的Head信息是第一類蜘蛛來獲取還是第二類來獲取,很多人都有不同的看法,但我還是比較贊成第一類蜘蛛訪問時就能索取這個信息。
Copyright@ 2011-2016 版權所有:大連千億科技有限公司 遼ICP備11013762-3號 google網站地圖 百度網站地圖 網站地圖
公司地址:大連市沙河口區中山路692號辰熙星海國際2317 客服電話:0411-39943997 QQ:2088827823 37482752
法律聲明:未經許可,任何模仿本站模板、轉載本站內容等行為者,本站保留追究其法律責任的權利! 隱私權政策聲明