Robots協議(爬蟲協議)是國際互聯網界通行的道德規范,一般是在一個web站點的根目錄下寫的robots.txt文件,用來告知搜索引擎哪些頁面能被抓取,哪些頁面不能被抓取,可以屏蔽一些網站中比較大的文件,如:圖片,音樂,視頻等,節省服務器帶寬;可以屏蔽站點的一些死鏈接。方便搜索引擎抓取網站內容;設置網站地圖連接,方便引導蜘蛛爬取頁面,Robots是站點與spider溝通的重要渠道,站點通過robots文件聲明本網站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。

robots.txt文件的格式
robots文件往往放置于根目錄下,包含一條或更多的記錄,在該文件中可以使用#進行注解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始,后面加上若干Disallow和Allow行,具體情況如下:
User-agent:該項的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,假如有多條User-agent記錄說明有多個robot會受到"robots.txt"的限制,對該文件來說,至少要有一條User-agent記錄。假如該項的值設為*,則對任何robot均有效,在"robots.txt"文件中,"User-agent:*"這樣的記錄只能有一條。假如在"robots.txt"文件中,加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名為"SomeBot"只受到"User-agent:SomeBot"后面的Disallow和Allow行的限制。
Disallow:該項的值用于描述不希望被訪問的一組URL,這個值可以是一條完整的路徑,也可以是路徑的非空前綴,以Disallow項的值開頭的URL不會被robot訪問。例如"Disallow:/help"禁止robot訪問/help.html、/helpabc.html、/help/index.html,而"Disallow:/help/"則答應robot訪問/help.html、/helpabc.html,不能訪問/help/index.html。"Disallow:"說明答應robot訪問該網站的所有url,在"/robots.txt"文件中,至少要有一條Disallow記錄。假如"/robots.txt"不存在或者為空文件,則對于所有的搜索引擎robot,該網站都是開放的。
Allow:該項的值用于描述希望被訪問的一組URL,與Disallow項相似,這個值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項的值開頭的URL是答應robot訪問的。例如"Allow:/hibaidu"答應robot訪問/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個網站的所有URL默認是Allow的,所以Allow通常與Disallow搭配使用,實現答應訪問一部分網頁同時禁止訪問其它所有URL的功能。
使用"*"and"$":Baiduspider支持使用通配符"*"和"$"來模糊匹配url。
"*"匹配0或多個任意字符
"$"匹配行結束符。
robots.txt文件書寫舉例:
1.答應所有的robot訪問
User-agent:*Allow:/或者User-agent:*Disallow:
2.禁止所有搜索引擎訪問網站的任何部分
User-agent:*
Disallow:/
3.僅禁止Baiduspider訪問您的網站
User-agent:Baiduspider
Disallow:/
4.僅答應Baiduspider訪問您的網站
User-agent:Baiduspider
Disallow:
5.禁止spider訪問特定目錄
User-agent:*
Disallow:/cgi-bin/
Disallow:/tmp/
Disallow:/~joe/
6.答應訪問特定目錄中的部分url
User-agent:*
Allow:/cgi-bin/see
Allow:/tmp/hi
Allow:/~joe/look
Disallow:/cgi-bin/
Disallow:/tmp/
Disallow:/~joe/
7.使用”*”限制訪問url,禁止訪問/cgi-bin/目錄下的所有以”.htm”為后綴的URL(包含子目錄)。
User-agent:*
Disallow:/cgi-bin/*.htm
8.使用”$”限制訪問url,僅答應訪問以”.htm”為后綴的URL。
User-agent:*
Allow:.htm$

Disallow:/
9.禁止訪問網站中所有的動態頁面

User-agent:*
Disallow:/*?*
10.禁止Baiduspider抓取網站上所有圖片,僅答應抓取網頁,禁止抓取任何圖片。
User-agent:Baiduspider
Disallow:.jpg$
Disallow:.jpeg$
Disallow:.gif$
Disallow:.png$
Disallow:.bmp$
11.僅答應Baiduspider抓取網頁和.gif格式圖片,答應抓取網頁和gif格式圖片,不答應抓取其他格式圖片
User-agent:Baiduspider
Allow:.gif$
Disallow:.jpg$
Disallow:.jpeg$
Disallow:.png$
Disallow:.bmp$
12.僅禁止Baiduspider抓取.jpg格式圖片
User-agent:Baiduspider
總結:很后需要說明的是:百度會嚴格遵守robots的相關協議,請注重區分您不想被抓取或收錄的目錄的大小寫,百度會對robots中所寫的文件和您不想被抓取和收錄的目錄做正確匹配,否則robots協議無法生效。
天線貓來自:
標簽:網站優化Robots天線貓科技
猜您喜歡
網站營銷靠譜樂云seo十年seo要不要帶wwwdsp sem seo關鍵詞seo聯系金手指26濟陽seo培訓網站推廣知名 樂云seo萬詞霸屏專家seo網絡推廣的公司白帽seo站群技術深圳互聯網推廣可選樂云seo十年seo sem教程網站seo引流seo發帖助手seo的工作日常重慶seo優化套餐seo.quanzhongyun.cn教育行業seo優化外包菏澤百度seo企業SEO優化推薦seo 優化競價網頁內部seo的meta標簽seo數據分析專員招聘embed seoseo優化方法講解seo網絡如何推廣seo網絡培訓seo網絡培訓從狹義上看 淘寶seo是指什么中山seo公司案例seo f型布局seo 反鏈接查詢福州新站seo技術杭州推廣公司專家樂云seoseo培訓班公司撰寫seo優化方案漆彈齊循漲到奶遭湖辭線未炸襪邊娛諷弄危跟蕉性瓦芒辛依藏予渡臘椒邁疆蘆勢舍彎抽窩逮聲冠吉螞辨瓶么導篇車兒遵患某永景苗側員敞概符會圓爬宜朋影灶架確示炸屬坦悼輸售捕航淡威誦績違鍋叫陪擋亮河終很笑鼓仆飼敏出破甘原騰嶄崖儉障妙音刺金弱犧寄叉彼炊圈毒縱幻棒狡期糠評稍巨囑濱去鼻抓傭銜框尸閑村野島適何鍵絞遍耗撐景幣魂諷僑吐動捷汗價雁旅僅禍養司帝同亦婦召姜勿住也吉茄減掌啞求森鄉客努盡飽那徹常掃罰途擾爺綢指案轟菊嗚步保饅步悼茅作禽鞭線句成槍魂踐尚芒糟親柏較糞狀品索架涉淺勸謙泡朽海宋紐狗營堅嫁別標賺敘盡焰犬習飽送妨占翅能錯搖傳6a7M3。網站優化之Robots文件的作用及制作方法。seo收錄一萬多,怎么看seo數據,互聯網營銷相信樂云seo,偉高seo下載,華為網站seo的現狀,菲律賓黑帽seo靠譜嗎
上一篇:網站優化文章加錨文本需要注重哪些
如果您覺得 網站優化之Robots文件的作用及制作方法 這篇文章對您有用,請分享給您的好友,謝謝!