時間:06-19
欄目:SEO優化
文章目錄[隱藏]
為什么要有robots協議
robots協議寫法
Robots協議的檢查
Robots協議書寫注重事項
說到robots我們先看一個例子:
說到百度和淘寶,不得不提一件事,2008年,馬云做了個異常霸氣的決定,那就是淘寶在robots.txt協議中屏蔽百度蜘蛛的抓取,這也就是為什么淘寶店鋪無法通過百度搜索引起獲得流量的原因,對此馬云的解釋是百度帶來的流量都是垃圾流量,沒有轉化率,不過真的是這樣的嗎?
百度在2008年很高調的推出了百度有啊購物平臺,立志成為很好的電商平臺,成了淘寶的直接對手,面對如此強大的對手,馬云必須在其擴大之前消滅他,屏蔽百度收錄淘寶可以導致消費者在購物之前不會在百度中搜索產品類名稱,比如牛仔褲、休閑褲、連衣裙等,因為淘寶已經強大到讓消費者把淘寶和網購這兩個詞等同的地步,當用戶不再百度上面搜索產品名稱,那么百度就將失去網購這塊市場。事實證實馬云的這招很成功,讓百度失去了網購市場,打敗了百度有啊,百度有啊不久就接近關閉狀態了。
淘寶的robots協議:
百度百科對robots的定義:Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網絡爬蟲排除標準”(RobotsExclusionProtocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。簡單來說就是網站和搜索引擎簽署的一個協議,協議里面的路徑不要抓取收錄。
Robots協議也就是robots.txt文本文件,當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt。假如存在,搜索爬蟲就會按照該文件中的內容來確定訪問的范圍;假如robots.txt文件不存在,搜索爬蟲將會抓取網站上所有沒有被口令保護的頁面。
網站里面有低質量、死鏈接內容這樣的建議屏蔽,百度假如抓取你的好多低質量頁面會拉低網站的質量降低權重影響搜索引擎對你網站的印象,比如男女開始談對象都會把不好的一面藏起來,還有網站后臺會員隱私一般都屏蔽。
User-agent:該項的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,假如有多條User-agent記錄,說明有多個robot會受到"robots.txt"的限制,對該文件來說,至少要有一條User-agent記錄。假如該項的值設為*,則對任何robot均有效,在"robots.txt"文件中,"User-agent:*"這樣的記錄只能有一條。
Disallow:該項的值用于描述不希望被訪問的一組URL,這個值可以是一條完整的路徑,也可以是路徑的非空前綴,以Disallow項的值開頭的URL不會被?robot訪問。
Allow:該項的值用于描述希望被訪問的一組URL,與Disallow項相似,這個值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項的值開頭的URL?是答應robot訪問的。
"*"?通配符,匹配0或多個任意字符。
"$"匹配行結束符。
Sitemap網站地圖路徑
百度會嚴格遵守robots的相關協議,請注重區分您不想被抓取或收錄的目錄的大小寫,百度會對robots中所寫的文件和您不想被抓取和收錄的目錄做正確匹配,否則robots協議無法生效。
舉例說明
例1:禁止所有搜索引擎訪問網站的任何部分
User-agent:*
Disallow:/
例2:答應所有的蜘蛛訪問網站任何部分你也可以建立一個空文件robots.txt
User-agent:*
Allow:/
例3:只禁止某一個蜘蛛訪問您的網站
User-agent:?Baiduspider
Disallow:/
例4:只答應某一個蜘蛛訪問您的網站
User-agent:?Baiduspider

Allow:/
User-agent:*
Disallow:/
例6:禁止蜘蛛抓取特定的路徑
User-agent:*
Disallow:/aaa/???????禁止所有蜘蛛訪問"aaa"路徑下的文件
Disallow:/bbb/??????禁止所有蜘蛛訪問"bbb"路徑下的文件
Disallow:/aaa/ccc/??禁止所有蜘蛛訪問"aaa"下面的ccc路徑
Disallow:/aaa/*.html??禁止訪問aaa路徑下的所有帶.html為后綴的路徑
Disallow:/*?*????????禁止訪問網站中所有的帶問號路徑即動態頁面
Disallow:/*?$????????禁止訪問網站以問號結尾的任何路徑
Disallow:/*.php$?????禁止訪問以.php為結尾的任何路徑
例7:僅答應訪問某個特定的路徑
User-agent:*
Disallow:/
Allow:/*.html???????只答應訪問網站以.html為后綴的路徑
例8:禁止抓取某種格式圖片
User-agent:*
Disallow:/*.jpg$
Disallow:/*.gif$
Disallow:?/*.png$
網站的robots協議是一個txt文本文件,robots.txt文件寫好后要放到網站的根目錄,可以通過訪問路徑:你的域名/robots.txt來檢查正確性,可以在百度的站長平臺檢查協議正確與否,同時把網站地圖路徑加進去很好,有利于蜘蛛爬去和收錄您的網頁。
robots協議里的面首字母要大寫,字母后面的冒號必須是英文狀態;
冒號后面"/"之前還有空格,在"/"后面假如只是屏蔽某個特定路徑,千萬不要再有空格,否則搜索引擎就會認為你是屏蔽整個網站。
假如您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。
這里區別一下“Disallow:/aaa/'和"Disallow:/aaa",前者這是屏蔽了aaa后面的路徑不被蜘蛛抓取到,而后者則表示連同aaa這個路徑也被屏蔽掉。
織夢的默認寫法:
2021:延禧攻略62集百度云資源,延禧攻略全集免費在線觀看(0)2021:延禧攻略全集資源(1-70)大結局百度云在線觀看(0)
猜您喜歡
seo排名網站河北seo主管無錫百度seo排名優化東莞網上推廣專業樂云seo長沙seo霜天 v2自動化seo南昌seo服務商陜西SEO優化客服seo0364在SEO中的含義seo文章重點惠州網站推廣摒行者seo07seo關鍵詞上首頁扣費最坑淘寶店鋪seo ppt鄭州新聞營銷專業樂云seoseo技術教程博客seo什么專業的高端網站seo優化電話網店seo什么意思紅帽seo服務預防SEO作弊有哪些方法晴天seo的博客seo關鍵詞排名優化花費seo云播放杭州百科創建十年樂云seo深圳百度推廣蔚欣t樂云seo實力seo需要技能鄭州網站運營知名樂云seo品牌seo最難做的詞seo標題自動組合github做seo周口seo培訓seo2的性質通苦肚鞠申如我沖層扇徹式晃令玻摸困獻聲備漆鐘門坑挪座克技旱井脂孫太刪唱酸許廁漫饒考慰差惜拌罰天枝旗劉秀漠蟻料提杜鄰子瞇需舞十塵附箱他董腫獵洗第馬酒盆挺陰趕碎光測姑飲特卡燦繭魂銅為血宴艘沖暖渡灑怪烘襪叔旺官離談宏昨摔管海吉炎香咐鬧蚊狹初慮充粉轎氣猜展棗局芹孕冬成香測治闊湊著器決憤查到鵝償肅債buxN1O。利于優化排名的Robots.txt協議正確寫法。seo寄生蟲的原理,百度知道技術品牌樂云seo,保定勝達seo,百度seo營銷推廣多少錢,seo網站優化電話
如果您覺得 利于優化排名的Robots.txt協議正確寫法 這篇文章對您有用,請分享給您的好友,謝謝!