探索者SEO優化為您分析搜索引擎爬蟲研究與爬去

標簽：瀏覽次數：?? 時間：2017-08-28

SEO優化

仟億科技SEO優化今天主要是跟大家分享一下搜索引擎的工作第一個環節的知識：互聯網之爬蟲。我們先來看一下它的定義：網絡爬蟲(又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者)，是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

從以上的定義來看，百度蜘蛛，谷歌機器人都屬于爬蟲的一種，而爬蟲主要是按照一定的規則，自動抓取信息的腳本或者程序，這個不難理解，有經驗的程序員都能夠獨立的編寫出來一套比較完整的蜘蛛程序，用來收集網絡信息，充實自己的網站。其實很多的信息采集軟件也是采用了這種技術。

那么我們在來看一下蜘蛛到底進行的什么工作：

每一種類型的資源，都有相應的蜘蛛爬蟲來搜集，當然解析的方式也各不相同。我們經常能夠在網站的日志中看到百度的spider和image-spider，不同的爬蟲利用其自身的規則來對其頁面進行解析。即使是這樣，我們也能夠看到爬蟲在爬去頁面的時候還是有一定的規律性的，這種規律性則是來自于搜索引擎效率最大化的取舍

寬度優先遍歷原則：這個原則是從網站自身做起的，根據網站的層級來抓取。因為我們在做網站的時候都有一個優先的考慮，比如我第一個想讓搜索引擎看到的就是首頁，其次的各個目錄頁面，再其次就是內容頁面，蜘蛛也是利用這一點來抓取。

非完全pagerank排序：這個原則就是利用谷歌的pr值來計算的。因為每一個網頁在谷歌中都會有一個評分，根絕這些評分高低來抓取。如果完全計算就比較耗費計算資源，所以它就采用高pr值的網頁傳遞出來的鏈接肯定都是可靠的。

OPIC(online page importance computation在線頁面重要性計算)：這一個原則跟pr值計算相差無幾，在采集的網頁中來計算每一個網頁的重要性，然后在進行優先抓取。

大站優先策略：這個毋庸置疑了。因為大戰比較符合信賴的原則。

其實我們可以看到，這種原則其實是對抓取的有限性和網頁的無限性的一個折中，即在有限的時間內抓取網絡中更為重要的頁面和資源。當然我們也需要去了解網絡爬蟲工作的原理，這樣的話更有利于我們去做SEO優化、

通過傳統百度Spider檢查死鏈的方法不僅會浪費大量的服務器資源，同時已經被百度索引的網頁被管理員刪除后，百度得不到及時的反饋，這樣百度服務器就會存儲大量互聯網上已經不存在的網頁，也會造成百度浪費大量服務器資源及搜索用戶體驗下降的情況。

既然死鏈對網站有如此多的影響，我們應該針對這些問題做哪些處理呢?百度站長平臺推出了死鏈工具，可以達到既提升網站用戶體驗，減少資源浪費，又幫百度及時清理無效的網頁作用。同時，當站長希望快速刪除某些隱私或者重要頁面的百度快照時，也可以將其HTTP狀態碼設置為404，然后通過死鏈工具推送給百度，以實現快速處理死鏈。

細心的朋友可能會有些疑問，如果提交的死鏈和網站地圖中的URL有沖突會不會對網站有什么影響?

正常的網站運營過程中，一般都會及時的把網站新增的URL寫入到Sitemap中，但有時會因特殊情況不得不刪除一些網頁，根據百度的建議大家也會把這些刪除的URL制作成死鏈文件提交給百度。由于單獨把一部分URL從大量的Sitemap中刪除是比較困難的也比較繁瑣，此時就有了一個問題，有部分已經刪除頁面的URL同時存在于Sitemap和死鏈文件中?？赡軙幸恍┡笥押凸P者一樣擔心這種情況會不會對網站有不良影響。根據百度相關說明是死鏈文件的優先級要高于Sitemap，只要URL存在死鏈文件中，百度在Sitemap中發現該URL也不會再抓取了，因此這種情況并不會對網站造成不良影響。雖然如此，不過為了有效利用百度站長平臺給出的Sitemap提交數量的空間，在不太過多好肥資源和精力的情況下，應該及時的清理掉Sitemap中已經刪除頁面的URL。

本文地址：http://www.fjlhjv.cn/library/seo/20170828191.html

上一篇：基礎SEO優化5個要點
下一篇：對百度圖片排名規則淺談

探索者SEO優化為您分析搜索引擎爬蟲研究與爬去

相關資訊

熱點資訊