robots.txt是搜索引擎訪問你的網站時要查看的第一個文件。Robots.txt文件可以告訴蜘蛛程序或者爬蟲程序(下簡稱搜索機器人)在你的服務器上什么文件是可以被查看的什么文件是不可以被查看的。
當一個搜索機器人訪問一個站點時,它會首先檢查該站點根目錄下是否有robots.txt,如果有,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,所有的搜索機器人將能夠訪問網站上所有沒有被口令保護的頁面。
robots.txt必須放置在一個站點的根目錄下,而且文件名必須全部小寫。
語法:最簡單的 robots.txt 文件使用規則:
· User-Agent: 適用下列規則的漫游器
· Disallow: 要攔截的網頁
·Allow:允許爬取的網頁
robots.txt文件用法舉例:
例1.禁止所有搜索引擎訪問網站的任何部分
User-agent: *
Disallow: /
例2.允許所有的robot訪問
(或者也可以建一個空文件 "/robots.txt")
User-agent: *
Allow: /
另一種寫法是
User-agent: *
Disallow:
例3. 僅禁止Baiduspider訪問您的網站
User-agent: Baiduspider
Disallow: /
例4. 僅允許Baiduspider訪問您的網站
User-agent: Baiduspider
Allow: /
例5. 禁止spider訪問特定目錄
在這個例子中,該網站有三個目錄對搜索引擎的訪問做了限制,即robot不會訪問這三個目錄。需要注意的是對每一個目錄必須分開聲明,而不能寫成 "Disallow: /cgi-bin/ /tmp/"。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例6. 允許訪問特定目錄中的部分
url User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
例7. 使用"*"限制訪問url
禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。
User-agent: *
Disallow: /cgi-bin/*.htm
例8. 使用"$"限制訪問url
僅允許訪問以".htm"為后綴的URL。
User-agent: *
Allow:/ .htm$
例9. 禁止訪問網站中所有的動態頁面
User-agent: *
Disallow: /*?*
例10. 禁止Baiduspider抓取網站上所有圖片
僅允許抓取網頁,禁止抓取任何圖片。
User-agent: Baiduspider
Disallow: /.jpg$
Disallow: / .jpeg$
Disallow:/ .gif$
Disallow:/ .png$
Disallow: /.bmp$
例11. 僅允許Baiduspider抓取網頁和。gif格式圖片
允許抓取網頁和gif格式圖片,不允許抓取其他格式圖片
User-agent: Baiduspider
Allow: .gif$
Disallow: /.jpg$
Disallow:/ .jpeg$
Disallow:/ .png$
Disallow: /.bmp$
例12. 僅禁止Baiduspider抓取。jpg格式圖片
User-agent: /Baiduspider
Disallow:/ .jpg$
Copyright@ 2011-2016 版權所有:大連千億科技有限公司 遼ICP備11013762-3號 google網站地圖 百度網站地圖 網站地圖
公司地址:大連市沙河口區中山路692號辰熙星海國際2317 客服電話:0411-39943997 QQ:2088827823 37482752
法律聲明:未經許可,任何模仿本站模板、轉載本站內容等行為者,本站保留追究其法律責任的權利! 隱私權政策聲明