一、robots.txt文件的作用:
1、屏蔽網站內的死鏈接。
2、屏蔽搜索引擎蜘蛛抓取站點內重復內容和頁面。
3、阻止搜索引擎索引網站隱私性的內容。
網站中重復的內容、頁面或者404信息過多,搜索引擎蜘蛛就會認為該網站價值較低,從而降低對該網站的“印象分”,這就是我們經常聽到的“降低權重”,因此通過建立robots.txt文件給蜘蛛指路是很有必要的。
二、經常使用到robots文件的情況
網站升級
老版本的很多頁面在新版本網站中去掉了,在這種情況下,可以通過 Robots文件告訴蜘蛛不再抓取這些已經去掉的頁面。
網站存在很多重復的內容
比如一個網站同時存在動態頁面和已經經過靜態化處理的頁面,這些頁面在內容上都是完全重復的內容,為了解決重復的問題,可以在Robots文件中禁止蜘蛛抓取動態頁面。
網站內部有些內容不便于公開發布,但是需要允許內部查閱。遇到這種情況,可以在Robots中告訴蜘蛛不要抓取。
三、robots.txt文件注意事項:
1、必須放置在一個站點的根目錄下;
2、文件名必須全部小寫;
3、最好是UTF-8編碼。
四、robots.txt寫作語法
允許所有的robot訪問?
User-agent: *?
Disallow:?
或者也可以建一個空文件 "/robots.txt"?
禁止所有搜索引擎訪問網站的任何部分?
User-agent: *?
Disallow: /?
禁止所有搜索引擎訪問網站的幾個部分(下例中的01、02目錄)?
User-agent: *?
Disallow: /01/?
Disallow: /02/?
我們來看一個robots.txt范例:百恒網絡http://m.1e2r.com/
訪問以上具體地址,我們可以看到robots.txt的具體內容如下:
? ? ? User-agent: *
? ? ? Disallow:?
? ? ? ?Disallow: /bin/
? ? ? ?Disallow: /adminbase/
? ? ? ?Sitemap: http://m.1e2r.com/sitemap.xml禁止某個搜索引擎的訪問(下例中的BadBot)?
User-agent: BadBot?
Disallow: /?
只允許某個搜索引擎的訪問(下例中的Crawler)?
User-agent: Crawler?
Disallow:
?