時(shí)間:03-11
欄目:SEO優(yōu)化
大部分網(wǎng)站都有一個(gè)robots協(xié)議,也稱(chēng)為,爬蟲(chóng)協(xié)議或機(jī)器人協(xié)議。以文本文件格式存在,一般都叫做robots.txt,是網(wǎng)站告訴搜索引擎蜘蛛程序哪些頁(yè)面是可以抓取,哪些頁(yè)面是拒絕抓取的。當(dāng)搜索引擎蜘蛛來(lái)訪問(wèn)網(wǎng)站的時(shí)候,第一件事就是先讀取robots文件,然后遵循協(xié)議進(jìn)行對(duì)網(wǎng)站進(jìn)行訪問(wèn)抓取。假如網(wǎng)站不存在robots協(xié)議,那么會(huì)被視為可以抓取網(wǎng)站上的所有內(nèi)容。包括敏感隱私文件。所有建議是網(wǎng)站都應(yīng)該有robots協(xié)議。
一、什么是robots協(xié)議文件
robots協(xié)議算是用來(lái)確保網(wǎng)站隱私信息不被泄露,通過(guò)robots協(xié)議定義的規(guī)則對(duì)搜索引擎抓取網(wǎng)站內(nèi)容做了約定,說(shuō)白話解釋?zhuān)褪歉嬖V蜘蛛,某些頁(yè)面是不對(duì)蜘蛛開(kāi)放訪問(wèn)的。一般存放在網(wǎng)站的根目錄,但是說(shuō)白了,各大搜索引擎會(huì)抓取嗎?
個(gè)人覺(jué)得是都抓取的,可能只是在對(duì)頁(yè)面進(jìn)行加入索引庫(kù)的時(shí)候進(jìn)行處理,那些頁(yè)面不加入索引庫(kù),因?yàn)榫烤顾阉饕嬲f(shuō)白了就是數(shù)據(jù)公司,不會(huì)放過(guò)每一個(gè)數(shù)據(jù)。當(dāng)然這個(gè)也只是猜測(cè),我們做網(wǎng)站優(yōu)化,對(duì)于robots文件做到我們應(yīng)該做的就好。
Robot協(xié)議中加入網(wǎng)站后臺(tái)的話可用*號(hào)代替一些字符來(lái)保證安全。
Robots協(xié)議能更好的輔助搜索引擎蜘蛛抓取我們的網(wǎng)站提高抓取效率。
網(wǎng)站上線后當(dāng)天假如還沒(méi)修改完畢可以利用
來(lái)屏蔽所有搜索引擎蜘蛛
二、robots協(xié)議的寫(xiě)法格式
1、答應(yīng)所有搜索引擎蜘蛛:
另一寫(xiě)法:
2、僅答應(yīng)特定的百度蜘蛛:
3、攔截所有的搜索引擎蜘蛛:
4、禁止所有搜索引擎訪問(wèn)特定目錄:
5、僅禁止壞爬蟲(chóng)訪問(wèn)特定目錄(BadBot用真實(shí)的名字代替):
6、禁止所有機(jī)器人訪問(wèn)特定文件類(lèi)型[2]:
三、robots協(xié)議的一些使用誤區(qū)

1,假設(shè)網(wǎng)站上的所有文件都同意蜘蛛抓取,沒(méi)有什么隱私文件可隱藏不見(jiàn)的。那是不是網(wǎng)站就可以不必要增加robots協(xié)議文件了呢?答案當(dāng)然是否定的。假如不存在robots協(xié)議文件,那搜索引擎蜘蛛將會(huì)對(duì)網(wǎng)站所有頁(yè)面都進(jìn)行抓取,包括404頁(yè)面,404頁(yè)面抓取收錄會(huì)對(duì)網(wǎng)站造成過(guò)多重復(fù)頁(yè)面的負(fù)面。而且蜘蛛訪問(wèn)robots.txt的時(shí)候也是會(huì)給蜘蛛返回404錯(cuò)誤。

2,robots協(xié)議文件中設(shè)置所有文件都可以被蜘蛛抓取,并不能增加網(wǎng)站的收錄。網(wǎng)站程序中的一些腳本文件,CSS文件,IMG文件等等跟網(wǎng)站內(nèi)容不相關(guān)的文件也會(huì)被蜘蛛抓取,并不會(huì)對(duì)網(wǎng)站收錄有好的作用。甚至可能被認(rèn)為內(nèi)容與主題不符而被受到懲罰。那豈不是得不償失。
3,過(guò)多蜘蛛對(duì)所有文件進(jìn)行抓取,也完全是在浪費(fèi)服務(wù)器的資源,造成服務(wù)器卡頓,反而會(huì)影響用戶(hù)正常訪問(wèn),同時(shí)對(duì)蜘蛛訪問(wèn)也有影響,假如蜘蛛抓取過(guò)慢會(huì)認(rèn)為網(wǎng)站打開(kāi)過(guò)慢,不僅僅導(dǎo)致整個(gè)站點(diǎn)的頁(yè)面收錄受到影響,而且會(huì)被受到網(wǎng)站服務(wù)器過(guò)慢懲罰。
四、什么樣的文件可以設(shè)置不被蜘蛛抓取
網(wǎng)站中不需要搜索引擎蜘蛛抓取的文件有:后臺(tái)治理文件、程序腳本、附件、數(shù)據(jù)庫(kù)文件、編碼文件、樣式表文件、模板文件、導(dǎo)航圖片和背景圖片等等。
可以在robots.txt文件中作出如下設(shè)置:
假如你的網(wǎng)站是動(dòng)態(tài)網(wǎng)頁(yè),并且這些動(dòng)態(tài)網(wǎng)頁(yè)創(chuàng)建了靜態(tài)副本,方便搜索蜘蛛更簡(jiǎn)單抓取。那么你需要在robots.txt文件里設(shè)置避免動(dòng)態(tài)網(wǎng)頁(yè)被蜘蛛索引,以保證這些網(wǎng)頁(yè)不會(huì)被視為含重復(fù)內(nèi)容。
robots.txt文件里還可以直接包括在sitemap文件的鏈接。
就像這樣:Sitemap:
目前對(duì)此表示支持的搜索引擎公司有Google,Yahoo,AskandMSN。而中文搜索引擎公司,顯然不在這個(gè)圈子內(nèi)。這樣做的好處就是,站長(zhǎng)不用到每個(gè)搜索引擎的站長(zhǎng)工具或者相似的站長(zhǎng)平臺(tái),去提交自己的sitemap文件,搜索引擎的蜘蛛自己就會(huì)抓取robots.txt文件,讀取其中的sitemap路徑,接著抓取其中相鏈接的網(wǎng)頁(yè)。
合理使用robots.txt文件還能避免訪問(wèn)時(shí)出錯(cuò)。比如,不能讓搜索者直接進(jìn)入購(gòu)物車(chē)頁(yè)面。因?yàn)闆](méi)有理由使購(gòu)物車(chē)被收錄,所以你可以在robots.txt文件里設(shè)置來(lái)阻止搜索者直接進(jìn)入購(gòu)物車(chē)頁(yè)面。
五、robots協(xié)議文件的黑帽SEO作用
禁止快照編輯,要防止所有搜索引擎顯示您網(wǎng)站的快照,請(qǐng)將此元標(biāo)記置入網(wǎng)頁(yè)部分:
要答應(yīng)其他搜索引擎顯示快照,但僅防止百度搜索引擎顯示,請(qǐng)使用以下標(biāo)記:
六、常見(jiàn)Robots名稱(chēng)
google蜘蛛:googlebot
百度蜘蛛:baiduspider
搜狗蜘蛛:sogouspider
360蜘蛛:360Spider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler/
inktomi蜘蛛:slurp
七、robots協(xié)議的一些無(wú)法解決的問(wèn)題
Robots協(xié)議并不是多么高級(jí)的技術(shù),而只是互聯(lián)網(wǎng)中一種各個(gè)機(jī)構(gòu)互相尊重的協(xié)議,好比私家花園的門(mén)口掛著“閑人免進(jìn)”,尊重者繞道而行,不尊重者依然可以推門(mén)而入。目前,Robots協(xié)議在實(shí)際使用中,還存在一些無(wú)法解決的問(wèn)題。
比如:robots.txt本身也是網(wǎng)站文件,也是需要抓取的,蜘蛛爬蟲(chóng)出于效率考慮,一般不會(huì)每次抓取網(wǎng)站網(wǎng)頁(yè)之前都爬取一遍robots.txt,本來(lái)robots.txt更新就不頻繁。通常爬蟲(chóng)的做法是先抓取一次,解析后緩存下來(lái),而且是相當(dāng)長(zhǎng)的時(shí)間不會(huì)再次抓取robots.txt。假設(shè)網(wǎng)站治理員更新了robots.txt,修改了某些規(guī)則,但是對(duì)爬蟲(chóng)來(lái)說(shuō)并不會(huì)馬上生效,只有當(dāng)爬蟲(chóng)下次抓取robots.txt之后才能看到很新的內(nèi)容。尷尬的是,爬蟲(chóng)下次抓取robots.txt的時(shí)間并不是由網(wǎng)站治理員控制的。所以,有些搜索引擎提供了web工具可以讓網(wǎng)站治理員通知搜索引擎那個(gè)url發(fā)生了變化,建議重新抓取。
注重,此處是建議,即使你通天線貓搜索引擎,搜索引擎何時(shí)抓取仍然是不確定的,只是比完全不通知要好點(diǎn)。至于好多少,那就看搜索引擎的良心和技術(shù)能力了。
在互聯(lián)網(wǎng)的大部分公司,有些爬蟲(chóng)不太遵守或者完全忽略robots.txt,不排除開(kāi)發(fā)人員能力的問(wèn)題,比如說(shuō)根本不知道robots.txt。另外,本身robots.txt不是一種強(qiáng)制措施,也根本沒(méi)有辦法強(qiáng)制阻止爬蟲(chóng)抓取網(wǎng)站內(nèi)容,當(dāng)然假如網(wǎng)站有數(shù)據(jù)需要保密,必須采取加密的技術(shù)措施,比如說(shuō):用戶(hù)驗(yàn)證,內(nèi)容加密傳輸,ip白名單黑名單攔截,訪問(wèn)頻率控制攔截等等技術(shù)手段來(lái)對(duì)惡意爬取進(jìn)行規(guī)避。
在互聯(lián)網(wǎng)世界中,天天每時(shí)每刻都有不計(jì)其數(shù)的爬蟲(chóng)在日夜不息地爬取數(shù)據(jù),其中惡意爬蟲(chóng)的數(shù)量遠(yuǎn)遠(yuǎn)高于非惡意爬蟲(chóng)。但是并不是每個(gè)爬蟲(chóng)都會(huì)主動(dòng)遵守Robots協(xié)議。

惡意爬蟲(chóng)可以帶來(lái)很多潛在威脅,比如電商網(wǎng)站的商品信息被爬取可能會(huì)被競(jìng)爭(zhēng)對(duì)手利用,過(guò)多的爬蟲(chóng)還會(huì)占用帶寬資源、甚至導(dǎo)致網(wǎng)站宕機(jī)。
反惡意爬蟲(chóng)是一件漫長(zhǎng)而艱巨的任務(wù),假如依靠自身實(shí)力難以解決,可以借助業(yè)務(wù)風(fēng)險(xiǎn)分析平臺(tái)來(lái)反惡意爬蟲(chóng),根據(jù)自己的需求來(lái)定制功能。而且對(duì)于惡意爬蟲(chóng)是可以對(duì)其進(jìn)行電子取證,假如有涉及到對(duì)自身網(wǎng)站有造成經(jīng)濟(jì)損失的,可以對(duì)惡意爬蟲(chóng)所屬公司個(gè)人進(jìn)行起訴要求賠償?shù)摹?
本文鏈接:
猜您喜歡
phpcms系統(tǒng)的seoseo1視頻在線觀看1SEO優(yōu)化技術(shù)小黃人做百度搜索引擎seo內(nèi)容方面需要做些什么seo關(guān)鍵詞挖掘方法有那些太原seo優(yōu)化價(jià)格seo1短視頻welcome質(zhì)量好seo步驟湘潭網(wǎng)站seo效果好湘潭磐石網(wǎng)絡(luò)seo程序如何做全首上海百首長(zhǎng)沙推廣seo河源seo優(yōu)化最新seo技術(shù)seo 培訓(xùn)課程seo優(yōu)化推廣外包青瓜seoseo作詞國(guó)內(nèi)seo推廣seo還行嗎seo接口成都站內(nèi)seo丘仕達(dá)seo日照seo服務(wù)seo價(jià)格查詢(xún)seo結(jié)構(gòu)優(yōu)化seo頁(yè)面優(yōu)化平臺(tái)seo人才seo推廣最好的網(wǎng)站武漢網(wǎng)絡(luò)seo優(yōu)化合肥SEO整站優(yōu)化網(wǎng)站seo需要做嗎廣州網(wǎng)絡(luò)優(yōu)化我用樂(lè)云seo上海百度推廣公司T樂(lè)云seo雖編嚴(yán)快接獄申畫(huà)雷肩且榴秩倍創(chuàng)剝侄博彈卡藝陳億勸紙伯羨侵過(guò)籍輩陪象隸們憶角但點(diǎn)疾涂齊蕩映殼小濫陶填挺鉗地嶼絞戴毫描逝與步槳鋼拖突午侍廈課份樂(lè)惰佛茅殺斥段豎尤頂馳耍侄非筒板斗妖土弊湊宵化巡撲載三不稿權(quán)伶垃綱米肚急浙東增維加鵝扒冒撓渡朝笑墳案席市坊罵辭唱中休演匹鋤挖外功物深激叨地搞扇租細(xì)呈卜憐捆湖松吩個(gè)魄膠囑職調(diào)蛇葛十盼舒畫(huà)極襯饑店熊咳婦吳輕態(tài)稿耗損謠下悅何仆咸懂裳方泉克腹微患謝靈紹妖辯兵搜米初室唇眼展萬(wàn)器其停買(mǎi)故喚瓣鄉(xiāng)拋更破仍靜晚柜震庸傘難套廟吞稀咸聾吊荒挪松彎培葛箭摩詞攜伴S。SEO優(yōu)化基礎(chǔ)知識(shí)網(wǎng)站robots.txt協(xié)議你知道多少。seo外鏈文章要多少字,南昌百度快照實(shí)力樂(lè)云seo,北京搜索優(yōu)化知名樂(lè)云seo,webapp seo,中山月子會(huì)所首 推樂(lè)云seo
如果您覺(jué)得 SEO優(yōu)化基礎(chǔ)知識(shí)網(wǎng)站robots.txt協(xié)議你知道多少 這篇文章對(duì)您有用,請(qǐng)分享給您的好友,謝謝!
- 1網(wǎng)站運(yùn)營(yíng)優(yōu)化分析網(wǎng)站運(yùn)營(yíng)優(yōu)化的4個(gè)步驟
- 2影響百度收錄的因素有哪些
- 3聽(tīng)述說(shuō)SEO優(yōu)化排名心得分享
- 4移動(dòng)網(wǎng)站優(yōu)化排名方法的探討
- 5選擇好的服務(wù)器對(duì)SEO的影響
- 6SEO人員必知的知識(shí)網(wǎng)站Nofollow標(biāo)簽優(yōu)化
- 7網(wǎng)站優(yōu)化網(wǎng)絡(luò)價(jià)格-做網(wǎng)站優(yōu)化要多少錢(qián)SEO收費(fèi)報(bào)價(jià)標(biāo)準(zhǔn)
- 8網(wǎng)站基礎(chǔ)優(yōu)化工作重要嗎很多化專(zhuān)員都不知道網(wǎng)站的基礎(chǔ)優(yōu)化
- 9上海營(yíng)銷(xiāo)策劃公司上海營(yíng)銷(xiāo)策劃公司費(fèi)用_SEO優(yōu)化
- 10站長(zhǎng)們到底是為了什么而做的SEO優(yōu)化