優(yōu)化網(wǎng)站時,我們總有些頁面不想被搜索引擎抓取和收錄,雖然有時自己網(wǎng)站頁面沒有鏈接到不想被收錄的頁面,但不可避免其他網(wǎng)站由于某些原因出現(xiàn)導(dǎo)入連接,導(dǎo)致網(wǎng)站被收錄。確保網(wǎng)站不被收錄,需要使用robots文件,那該如何設(shè)置呢?
倘若robots文件不存在或者是空文件,都意味著允許搜索引擎抓取所有內(nèi)容。但有些服務(wù)器設(shè)置有問題,robots文件不存在時,會返回200狀態(tài)碼及一些錯誤內(nèi)容,而不是404狀態(tài)碼,這很有肯那個使搜索引擎錯誤解讀robots文件信息。世紀東方小編建議就算允許抓取所有內(nèi)容,也在建立一個空的robots.txt文件,放在根目錄下。
一、robots.txt文件格式
格式:User-agent:
Disallow:
User-agent: 指定規(guī)則適用于哪種蜘蛛;
Disallow:告訴蜘蛛不要抓取某些文件及目錄;
Allow:告訴蜘蛛抓取哪些文件及目錄;
1、允許所有訪問
User-agent:*
Allow:/
2、禁止所有搜索引擎抓取任何內(nèi)容
User-agent:*
Disallow:/
3、禁止百度蜘蛛抓取
User-agent:Baiduspider
Disallow:/
4、禁止google蜘蛛抓取
User-agent:Googlebot
Disallow:/
5、禁止蜘蛛抓取某個目錄下的文件夾及內(nèi)容,如(/news/和/tag/下的這個目錄及文件;
User-agent:*
Disallow:/news/
Disallow:/tag/
注:禁止目錄及文件夾必須分開來寫,每個一行,不能寫成:Disallow:/news//tag/
6、允許蜘蛛抓取某個目錄下的某個目錄及文件,如:只抓取/domain/cn/目錄
User-agent:*
Disallow:/domain/
allow:/domain/cn/
7、只允許蜘蛛抓取以.html為后綴的url
User-agent:*
allow:.htm$
"$"通配符表示匹配URL結(jié)尾的字符
8、禁止訪問某個目錄下所有以".html"為后綴的url,如:禁止/domain/目錄下的所有以".html"為后綴的url
User-agent:*
Disallow:/domain/*.html
9、禁止抓取網(wǎng)站中所有動態(tài)頁面
User-agent: *
Disallow: /*?*
10、禁止Googlebot抓取網(wǎng)站所有圖片
User-agent: *
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gig$
Disallow: /*.png$
Disallow: /*.bmp$

![]()
本單位代理的域名注冊服務(wù)機構(gòu)名稱:商中在線科技股份有限公司、北京新網(wǎng)數(shù)碼信息技術(shù)有限公司
?2002-2019 Oriental Century All Rights Reserved. 版權(quán)所有:成都世紀東方網(wǎng)絡(luò)通信有限公司
《中華人民共和國增值電信業(yè)務(wù)經(jīng)營許可證》ISP證編號:B1-20181050 蜀ICP備07500933號 營業(yè)執(zhí)照 公安備案:51019001000101