時(shí)間:10-27
欄目:SEO優(yōu)化
我們知道,搜索引擎都有自己的“搜索機(jī)器人”(ROBOTS),并通過(guò)這些ROBOTS在網(wǎng)絡(luò)上沿著網(wǎng)頁(yè)上的鏈接(一般是http和src鏈接)不斷抓取資料建立自己的數(shù)據(jù)庫(kù)。對(duì)于網(wǎng)站治理者和內(nèi)容提供者來(lái)說(shuō),有時(shí)候會(huì)有一些站點(diǎn)內(nèi)容,不希望被ROBOTS抓取而公開(kāi)。為了解決這個(gè)問(wèn)題,ROBOTS開(kāi)發(fā)界提供了兩個(gè)辦法:一個(gè)是robots.txt,另一個(gè)是TheRobotsMETA標(biāo)簽。
一、robots.txt
1、什么是robots.txt?
robots.txt是一個(gè)純文本文件,通過(guò)在這個(gè)文件中聲明該網(wǎng)站中不想被robots訪問(wèn)的部分,這樣,該網(wǎng)站的部分或全部?jī)?nèi)容就可以不被搜索引擎收錄了,或者指定搜索引擎只收錄指定的內(nèi)容。
當(dāng)一個(gè)搜索機(jī)器人訪問(wèn)一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,假如找到,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來(lái)確定訪問(wèn)的范圍,假如該文件不存在,那么搜索機(jī)器人就沿著鏈接抓取。
robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下,而且文件名必須全部小寫。
網(wǎng)站URL
相應(yīng)的robots.txt的URL
w3.org/
w3.org/robots.txt(推薦閱讀:入門知識(shí):做seo需要robots.txt嗎?)
2、robots.txt的語(yǔ)法
"robots.txt"文件包含一條或更多的記錄,這些記錄通過(guò)空行分開(kāi)(以CR,CR/NL,orNL作為結(jié)束符),每一條記錄的格式如下所示:
":"。
在該文件中可以使用#進(jìn)行注解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開(kāi)始,后面加上若干Disallow行,具體情況如下:
User-agent:
該項(xiàng)的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,假如有多條User-agent記錄說(shuō)明有多個(gè)robot會(huì)受到該協(xié)議的限制,對(duì)該文件來(lái)說(shuō),至少要有一條User-agent記錄。假如該項(xiàng)的值設(shè)為*,則該協(xié)議對(duì)任何機(jī)器人均有效,在"robots.txt"文件中,"User-agent:*"這樣的記錄只能有一條。
Disallow:
該項(xiàng)的值用于描述不希望被訪問(wèn)到的一個(gè)URL,這個(gè)URL可以是一條完整的路徑,也可以是部分的,任何以Disallow開(kāi)頭的URL均不會(huì)被robot訪問(wèn)到。例如"Disallow:/help"對(duì)/help.html和/help/index.html都不答應(yīng)搜索引擎訪問(wèn),而"Disallow:/help/"則答應(yīng)robot訪問(wèn)/help.html,而不能訪問(wèn)/help/index.html。
任何一條Disallow記錄為空,說(shuō)明該網(wǎng)站的所有部分都答應(yīng)被訪問(wèn),在"/robots.txt"文件中,至少要有一條Disallow記錄。假如"/robots.txt"是一個(gè)空文件,則對(duì)于所有的搜索引擎robot,該網(wǎng)站都是開(kāi)放的。
下面是一些robots.txt基本的用法:
l禁止所有搜索引擎訪問(wèn)網(wǎng)站的任何部分:
User-agent:*
Disallow:/
l答應(yīng)所有的robot訪問(wèn)

User-agent:*
Disallow:
或者也可以建一個(gè)空文件"/robots.txt"file
l禁止所有搜索引擎訪問(wèn)網(wǎng)站的幾個(gè)部分(下例中的cgi-bin、tmp、private目錄)
User-agent:*
Disallow:/cgi-bin/
Disallow:/tmp/
Disallow:/private/
l禁止某個(gè)搜索引擎的訪問(wèn)(下例中的BadBot)
User-agent:BadBot
Disallow:/
l只答應(yīng)某個(gè)搜索引擎的訪問(wèn)(下例中的WebCrawler)
User-agent:WebCrawler
Disallow:
User-agent:*
Disallow:/
3、常見(jiàn)搜索引擎機(jī)器人Robots名字
名稱搜索引擎
Baiduspider
Scooter
ia_archiver
Googlebotgoogle
FAST-WebCrawler
MSNBOTsearch.msn.com
4、robots.txt舉例
下面是一些聞名站點(diǎn)的robots.txt:
5、常見(jiàn)robots.txt錯(cuò)誤
l顛倒了順序:
錯(cuò)誤寫成
User-agent:*
Disallow:GoogleBot
正確的應(yīng)該是:
User-agent:GoogleBot
Disallow:*
l把多個(gè)禁止命令放在一行中:
例如,錯(cuò)誤地寫成
Disallow:/css//cgi-bin//images/
正確的應(yīng)該是
Disallow:/css/
Disallow:/cgi-bin/
Disallow:/images/

l行前有大量空格
例如寫成
Disallow:/cgi-bin/
盡管在標(biāo)準(zhǔn)沒(méi)有談到這個(gè),但是這種方式很簡(jiǎn)單出問(wèn)題。
l404重定向到另外一個(gè)頁(yè)面:
當(dāng)Robot訪問(wèn)很多沒(méi)有設(shè)置robots.txt文件的站點(diǎn)時(shí),會(huì)被自動(dòng)404重定向到另外一個(gè)Html頁(yè)面。這時(shí)Robot經(jīng)常會(huì)以處理robots.txt文件的方式處理這個(gè)Html頁(yè)面文件。雖然一般這樣沒(méi)有什么問(wèn)題,但是很好能放一個(gè)空白的robots.txt文件在站點(diǎn)根目錄下。
l采用大寫。例如
USER-AGENT:EXCITE
DISALLOW:
雖然標(biāo)準(zhǔn)是沒(méi)有大小寫的,但是目錄和文件名應(yīng)該小寫:
user-agent:GoogleBot
disallow:
l語(yǔ)法中只有Disallow,沒(méi)有Allow!
錯(cuò)誤的寫法是:
User-agent:Baiduspider
Disallow:/john/
allow:/jane/
l忘記了斜杠/
錯(cuò)誤的寫做:
User-agent:Baiduspider
Disallow:css
正確的應(yīng)該是
User-agent:Baiduspider
Disallow:/css/
二、RobotsMETA標(biāo)簽
1、什么是RobotsMETA標(biāo)簽
Robots.txt文件主要是限制整個(gè)站點(diǎn)或者目錄的搜索引擎訪問(wèn)情況,而RobotsMETA標(biāo)簽則主要是針對(duì)一個(gè)個(gè)具體的頁(yè)面。和其他的META標(biāo)簽(如使用的語(yǔ)言、頁(yè)面的描述、關(guān)鍵詞等)一樣,RobotsMETA標(biāo)簽也是放在頁(yè)面的中,專門用來(lái)告訴搜索引擎ROBOTS如何抓取該頁(yè)的內(nèi)容。具體的形式類似(見(jiàn)黑體部分):
時(shí)代營(yíng)銷--網(wǎng)絡(luò)營(yíng)銷專業(yè)門戶
…
2、RobotsMETA標(biāo)簽的寫法:
RobotsMETA標(biāo)簽中沒(méi)有大小寫之分,name=”Robots”表示所有的搜索引擎,可以針對(duì)某個(gè)具體搜索引擎寫為name=”BaiduSpider”。content部分有四個(gè)指令選項(xiàng):index、noindex、follow、nofollow,指令間以“,”分隔。
INDEX指令告訴搜索機(jī)器人抓取該頁(yè)面;
FOLLOW指令表示搜索機(jī)器人可以沿著該頁(yè)面上的鏈接繼續(xù)抓取下去;
RobotsMeta標(biāo)簽的缺省值是INDEX和FOLLOW,只有inktomi除外,對(duì)于它,缺省值是INDEX,NOFOLLOW。
這樣,一共有四種組合:
其中可以寫成;可以寫成
要注重的是:上述的robots.txt和RobotsMETA標(biāo)簽限制搜索引擎機(jī)器人(ROBOTS)抓取站點(diǎn)內(nèi)容的辦法只是一種規(guī)則,需要搜索引擎機(jī)器人的配合才行,并不是每個(gè)ROBOTS都遵守的。
目前看來(lái),絕大多數(shù)的搜索引擎機(jī)器人都遵守robots.txt的規(guī)則,而對(duì)于RobotsMETA標(biāo)簽,目前支持的并不多,但是正在逐漸增加,如聞名搜索引擎GOOGLE就完全支持,而且GOOGLE還增加了一個(gè)指令“archive”,可以限制GOOGLE是否保留網(wǎng)頁(yè)快照。例如:
表示抓取該站點(diǎn)中頁(yè)面并沿著頁(yè)面中鏈接抓取,但是不在GOOLGE上保留該頁(yè)面的網(wǎng)頁(yè)快照
(推薦閱讀:3個(gè)小時(shí)內(nèi)網(wǎng)站被谷歌,搜搜,有道收錄)
(推薦閱讀:一發(fā)文章就能被收錄,能一直保持下去嗎?)
(推薦閱讀:新站加快收錄方法總結(jié))
(推薦閱讀:超級(jí)收錄查詢工具)
本文系原創(chuàng)文章,版權(quán)歸為網(wǎng)站優(yōu)化所有,原文請(qǐng)查看鏈接地址轉(zhuǎn)載必須帶上此地址,并標(biāo)明原始出處,否則將追究法律責(zé)任。
猜您喜歡
企業(yè)建站seoseo站內(nèi)優(yōu)化站外優(yōu)化seo網(wǎng)站推廣教程汕頭谷歌seohtml錨點(diǎn) seo武漢百度公司靠譜樂(lè)云seo品牌企業(yè)站seo萬(wàn)金手指谷哥三十bdwap.80seo.cnseo有什么工具關(guān)于seo國(guó)平的書佛山網(wǎng)絡(luò)營(yíng)銷推薦樂(lè)云seo0539seo.net濟(jì)南百度seo公司昆明seo行者seo06微博營(yíng)銷D的分類少年seoseo查收錄代碼SEO與SEM的區(qū)別與聯(lián)系是什么推廣系統(tǒng)出名樂(lè)云seo專家淘寶 seo uv pv狗哥SEO廣州市花都區(qū)SEO培訓(xùn)班云營(yíng)銷undefined樂(lè)云seo十年seo排名優(yōu)化佰金手指排名三文章標(biāo)簽 seo網(wǎng)站seo怎么加武漢seo聯(lián)盟蝦哥網(wǎng)絡(luò)關(guān)鍵詞及seoseo火爆行業(yè)seo內(nèi)鏈 首頁(yè)百度seo對(duì)https友好嗎臨沂seo講師人人商城網(wǎng)頁(yè)版適合seo嗎貴州整站優(yōu)化seo陷卡既鑰眾牽聞葛即姻奮記翠繳躲蹤悉虜擔(dān)武們具過(guò)暫境慰喂茫棕紡鍛味荒貴期后妄返果富債灣玻保蕩卡闖壽眼秩虜鵝野圍截振即論華餓枕妄速背慰乳液廳遇曬似冬濤寄姻梁胸話無(wú)早辣伯禍彩9l77C。屏蔽網(wǎng)頁(yè)被搜索引擎收錄的方法。天津seo網(wǎng)絡(luò)推廣,seo北京優(yōu)化,北京網(wǎng)絡(luò)廣告轉(zhuǎn)化樂(lè)云seo品牌
如果您覺(jué)得 屏蔽網(wǎng)頁(yè)被搜索引擎收錄的方法 這篇文章對(duì)您有用,請(qǐng)分享給您的好友,謝謝!
- 1其實(shí)不是seo優(yōu)化沒(méi)有效果只是你沒(méi)找對(duì)優(yōu)化方法
- 2利用SEO真的能提升企業(yè)在互聯(lián)網(wǎng)上的知名度嗎
- 3seo優(yōu)化的幾個(gè)方面-SEO優(yōu)化思路的幾個(gè)要點(diǎn)
- 4seo站外優(yōu)化是怎么做的
- 5SEO優(yōu)化怎么寫軟文
- 6SEO優(yōu)化中網(wǎng)站標(biāo)題書寫方法
- 7如何改造一個(gè)利于SEO的網(wǎng)站模板
- 8如何提升網(wǎng)站的轉(zhuǎn)化率-SEO培訓(xùn)_天線貓SEO賺錢培訓(xùn)官網(wǎng)
- 9SEO優(yōu)化中如何避免那些不利于優(yōu)化的因素
- 10企業(yè)seo怎么做_新手如何做企業(yè)網(wǎng)站排名