返回頂部
關(guān)閉軟件導(dǎo)航
位置:首頁(yè) > 技術(shù)分享 > SEO優(yōu)化>屏蔽網(wǎng)頁(yè)被搜索引擎收錄的方法

我們知道,搜索引擎都有自己的“搜索機(jī)器人”(ROBOTS),并通過(guò)這些ROBOTS在網(wǎng)絡(luò)上沿著網(wǎng)頁(yè)上的鏈接(一般是http和src鏈接)不斷抓取資料建立自己的數(shù)據(jù)庫(kù)。對(duì)于網(wǎng)站治理者和內(nèi)容提供者來(lái)說(shuō),有時(shí)候會(huì)有一些站點(diǎn)內(nèi)容,不希望被ROBOTS抓取而公開(kāi)。為了解決這個(gè)問(wèn)題,ROBOTS開(kāi)發(fā)界提供了兩個(gè)辦法:一個(gè)是robots.txt,另一個(gè)是TheRobotsMETA標(biāo)簽。

一、robots.txt

1、什么是robots.txt?

robots.txt是一個(gè)純文本文件,通過(guò)在這個(gè)文件中聲明該網(wǎng)站中不想被robots訪問(wèn)的部分,這樣,該網(wǎng)站的部分或全部?jī)?nèi)容就可以不被搜索引擎收錄了,或者指定搜索引擎只收錄指定的內(nèi)容。

當(dāng)一個(gè)搜索機(jī)器人訪問(wèn)一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,假如找到,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來(lái)確定訪問(wèn)的范圍,假如該文件不存在,那么搜索機(jī)器人就沿著鏈接抓取。

robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下,而且文件名必須全部小寫。

網(wǎng)站URL

相應(yīng)的robots.txt的URL

w3.org/

w3.org/robots.txt(推薦閱讀:入門知識(shí):做seo需要robots.txt嗎?)

2、robots.txt的語(yǔ)法

"robots.txt"文件包含一條或更多的記錄,這些記錄通過(guò)空行分開(kāi)(以CR,CR/NL,orNL作為結(jié)束符),每一條記錄的格式如下所示:

":"。

在該文件中可以使用#進(jìn)行注解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開(kāi)始,后面加上若干Disallow行,具體情況如下:

User-agent:

該項(xiàng)的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,假如有多條User-agent記錄說(shuō)明有多個(gè)robot會(huì)受到該協(xié)議的限制,對(duì)該文件來(lái)說(shuō),至少要有一條User-agent記錄。假如該項(xiàng)的值設(shè)為*,則該協(xié)議對(duì)任何機(jī)器人均有效,在"robots.txt"文件中,"User-agent:*"這樣的記錄只能有一條。

Disallow:

該項(xiàng)的值用于描述不希望被訪問(wèn)到的一個(gè)URL,這個(gè)URL可以是一條完整的路徑,也可以是部分的,任何以Disallow開(kāi)頭的URL均不會(huì)被robot訪問(wèn)到。例如"Disallow:/help"對(duì)/help.html和/help/index.html都不答應(yīng)搜索引擎訪問(wèn),而"Disallow:/help/"則答應(yīng)robot訪問(wèn)/help.html,而不能訪問(wèn)/help/index.html。

任何一條Disallow記錄為空,說(shuō)明該網(wǎng)站的所有部分都答應(yīng)被訪問(wèn),在"/robots.txt"文件中,至少要有一條Disallow記錄。假如"/robots.txt"是一個(gè)空文件,則對(duì)于所有的搜索引擎robot,該網(wǎng)站都是開(kāi)放的。

下面是一些robots.txt基本的用法:

l禁止所有搜索引擎訪問(wèn)網(wǎng)站的任何部分:

User-agent:*

Disallow:/

l答應(yīng)所有的robot訪問(wèn)

屏蔽網(wǎng)頁(yè)被搜索引擎收錄的方法

User-agent:*

Disallow:

或者也可以建一個(gè)空文件"/robots.txt"file

l禁止所有搜索引擎訪問(wèn)網(wǎng)站的幾個(gè)部分(下例中的cgi-bin、tmp、private目錄)

User-agent:*

Disallow:/cgi-bin/

Disallow:/tmp/

Disallow:/private/

l禁止某個(gè)搜索引擎的訪問(wèn)(下例中的BadBot)

User-agent:BadBot

Disallow:/

l只答應(yīng)某個(gè)搜索引擎的訪問(wèn)(下例中的WebCrawler)

User-agent:WebCrawler

Disallow:

User-agent:*

Disallow:/

3、常見(jiàn)搜索引擎機(jī)器人Robots名字

名稱搜索引擎

Baiduspider

Scooter

ia_archiver

Googlebotgoogle

FAST-WebCrawler

MSNBOTsearch.msn.com

4、robots.txt舉例

下面是一些聞名站點(diǎn)的robots.txt:

5、常見(jiàn)robots.txt錯(cuò)誤

l顛倒了順序:

錯(cuò)誤寫成

User-agent:*

Disallow:GoogleBot

正確的應(yīng)該是:

User-agent:GoogleBot

Disallow:*

l把多個(gè)禁止命令放在一行中:

例如,錯(cuò)誤地寫成

Disallow:/css//cgi-bin//images/

正確的應(yīng)該是

Disallow:/css/

Disallow:/cgi-bin/

Disallow:/images/

l行前有大量空格

例如寫成

Disallow:/cgi-bin/

盡管在標(biāo)準(zhǔn)沒(méi)有談到這個(gè),但是這種方式很簡(jiǎn)單出問(wèn)題。

l404重定向到另外一個(gè)頁(yè)面:

當(dāng)Robot訪問(wèn)很多沒(méi)有設(shè)置robots.txt文件的站點(diǎn)時(shí),會(huì)被自動(dòng)404重定向到另外一個(gè)Html頁(yè)面。這時(shí)Robot經(jīng)常會(huì)以處理robots.txt文件的方式處理這個(gè)Html頁(yè)面文件。雖然一般這樣沒(méi)有什么問(wèn)題,但是很好能放一個(gè)空白的robots.txt文件在站點(diǎn)根目錄下。

l采用大寫。例如

USER-AGENT:EXCITE

DISALLOW:

雖然標(biāo)準(zhǔn)是沒(méi)有大小寫的,但是目錄和文件名應(yīng)該小寫:

user-agent:GoogleBot

disallow:

l語(yǔ)法中只有Disallow,沒(méi)有Allow!

錯(cuò)誤的寫法是:

User-agent:Baiduspider

Disallow:/john/

allow:/jane/

l忘記了斜杠/

錯(cuò)誤的寫做:

User-agent:Baiduspider

Disallow:css

正確的應(yīng)該是

User-agent:Baiduspider

Disallow:/css/

二、RobotsMETA標(biāo)簽

1、什么是RobotsMETA標(biāo)簽

Robots.txt文件主要是限制整個(gè)站點(diǎn)或者目錄的搜索引擎訪問(wèn)情況,而RobotsMETA標(biāo)簽則主要是針對(duì)一個(gè)個(gè)具體的頁(yè)面。和其他的META標(biāo)簽(如使用的語(yǔ)言、頁(yè)面的描述、關(guān)鍵詞等)一樣,RobotsMETA標(biāo)簽也是放在頁(yè)面的中,專門用來(lái)告訴搜索引擎ROBOTS如何抓取該頁(yè)的內(nèi)容。具體的形式類似(見(jiàn)黑體部分):

時(shí)代營(yíng)銷--網(wǎng)絡(luò)營(yíng)銷專業(yè)門戶

2、RobotsMETA標(biāo)簽的寫法:

RobotsMETA標(biāo)簽中沒(méi)有大小寫之分,name=”Robots”表示所有的搜索引擎,可以針對(duì)某個(gè)具體搜索引擎寫為name=”BaiduSpider”。content部分有四個(gè)指令選項(xiàng):index、noindex、follow、nofollow,指令間以“,”分隔。

INDEX指令告訴搜索機(jī)器人抓取該頁(yè)面;

FOLLOW指令表示搜索機(jī)器人可以沿著該頁(yè)面上的鏈接繼續(xù)抓取下去;

RobotsMeta標(biāo)簽的缺省值是INDEX和FOLLOW,只有inktomi除外,對(duì)于它,缺省值是INDEX,NOFOLLOW。

這樣,一共有四種組合:

其中可以寫成;可以寫成

要注重的是:上述的robots.txt和RobotsMETA標(biāo)簽限制搜索引擎機(jī)器人(ROBOTS)抓取站點(diǎn)內(nèi)容的辦法只是一種規(guī)則,需要搜索引擎機(jī)器人的配合才行,并不是每個(gè)ROBOTS都遵守的。

目前看來(lái),絕大多數(shù)的搜索引擎機(jī)器人都遵守robots.txt的規(guī)則,而對(duì)于RobotsMETA標(biāo)簽,目前支持的并不多,但是正在逐漸增加,如聞名搜索引擎GOOGLE就完全支持,而且GOOGLE還增加了一個(gè)指令“archive”,可以限制GOOGLE是否保留網(wǎng)頁(yè)快照。例如:

表示抓取該站點(diǎn)中頁(yè)面并沿著頁(yè)面中鏈接抓取,但是不在GOOLGE上保留該頁(yè)面的網(wǎng)頁(yè)快照

(推薦閱讀:3個(gè)小時(shí)內(nèi)網(wǎng)站被谷歌,搜搜,有道收錄)

(推薦閱讀:一發(fā)文章就能被收錄,能一直保持下去嗎?)

(推薦閱讀:新站加快收錄方法總結(jié))

(推薦閱讀:超級(jí)收錄查詢工具)

本文系原創(chuàng)文章,版權(quán)歸為網(wǎng)站優(yōu)化所有,原文請(qǐng)查看鏈接地址轉(zhuǎn)載必須帶上此地址,并標(biāo)明原始出處,否則將追究法律責(zé)任。

陷卡既鑰眾牽聞葛即姻奮記翠繳躲蹤悉虜擔(dān)武們具過(guò)暫境慰喂茫棕紡鍛味荒貴期后妄返果富債灣玻保蕩卡闖壽眼秩虜鵝野圍截振即論華餓枕妄速背慰乳液廳遇曬似冬濤寄姻梁胸話無(wú)早辣伯禍彩9l77C。屏蔽網(wǎng)頁(yè)被搜索引擎收錄的方法。天津seo網(wǎng)絡(luò)推廣,seo北京優(yōu)化,北京網(wǎng)絡(luò)廣告轉(zhuǎn)化樂(lè)云seo品牌

如果您覺(jué)得 屏蔽網(wǎng)頁(yè)被搜索引擎收錄的方法 這篇文章對(duì)您有用,請(qǐng)分享給您的好友,謝謝!

主站蜘蛛池模板: 超清无码无卡中文字幕| 亚洲日韩一区二区一无码| 国产日韩AV免费无码一区二区三区| 国产精品无码一二区免费| 亚洲精品无码av人在线观看| 高清无码午夜福利在线观看| 国产成人无码精品久久久免费| 18精品久久久无码午夜福利| 中文无码喷潮在线播放| 免费A级毛片无码无遮挡内射| 中文无码精品一区二区三区| 无码精油按摩潮喷在播放| 未满十八18禁止免费无码网站| r级无码视频在线观看| 无码国产精品一区二区免费| 国产成人AV片无码免费| 性色AV一区二区三区无码| 亚洲精品久久无码av片俺去也| 亚洲av无码乱码国产精品| 东京热加勒比无码少妇| 亚洲精品无码激情AV| MM1313亚洲精品无码久久| 69堂人成无码免费视频果冻传媒| 亚洲av无码不卡一区二区三区| 亚洲中久无码永久在线观看同| 小泽玛丽无码视频一区| 狠狠久久精品中文字幕无码| 加勒比无码一区二区三区| 无码尹人久久相蕉无码| 蜜臀AV无码精品人妻色欲| 亚洲AV无码一区二区三区性色| 亚洲无码一区二区三区| 亚洲最大中文字幕无码网站| 一本大道在线无码一区| 国产精品无码亚洲一区二区三区 | 野花在线无码视频在线播放| 人妻老妇乱子伦精品无码专区| 国产乱人伦无无码视频试看| 无码熟妇αⅴ人妻又粗又大| aⅴ一区二区三区无卡无码| 无码人妻丰满熟妇啪啪|