- 工信部備案號 滇ICP備05000110號-1
- 滇公安備案 滇53010302000111
- 增值電信業(yè)務(wù)經(jīng)營許可證 B1.B2-20181647、滇B1.B2-20190004
- 云南互聯(lián)網(wǎng)協(xié)會理事單位
- 安全聯(lián)盟認(rèn)證網(wǎng)站身份V標(biāo)記
- 域名注冊服務(wù)機構(gòu)許可:滇D3-20230001
- 代理域名注冊服務(wù)機構(gòu):新網(wǎng)數(shù)碼
1.Robots協(xié)議(也稱為爬蟲協(xié)議、機器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
2.Robots協(xié)議用來告知搜索引擎哪些頁面能被抓取,哪些頁面不能被抓??;可以屏蔽一些網(wǎng)站中比較大的文件,如:圖片,音樂,視頻等,節(jié)省服務(wù)器帶寬;可以屏蔽站點的一些死鏈接。方便搜索引擎抓取網(wǎng)站內(nèi)容;設(shè)置網(wǎng)站地圖連接,方便引導(dǎo)蜘蛛爬取頁面。
3.當(dāng)一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。百度官方建議,僅當(dāng)您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網(wǎng)站上所有內(nèi)容,請勿建立robots.txt文件。
4.文件寫法
user-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符
disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。
disallow: /*?* 禁止訪問網(wǎng)站中所有包含問號 (?) 的網(wǎng)址
disallow: /.jpg$ 禁止抓取網(wǎng)頁所有的.jpg格式的圖片
disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄
allow: /tmp 這里定義是允許爬尋tmp的整個目錄
allow: .htm$ 僅允許訪問以".htm"為后綴的URL。
allow: .gif$ 允許抓取網(wǎng)頁和gif格式圖片
sitemap: 網(wǎng)站地圖 告訴爬蟲這個頁面是網(wǎng)站地圖
[摘抄自百度百科]
售前咨詢
售后咨詢
備案咨詢
二維碼
TOP