返回頂部
關(guān)閉軟件導(dǎo)航
位置:首頁 > 技術(shù)分享 > SEO優(yōu)化>robots.txt和robotsmeta標(biāo)簽-SEO培訓(xùn)_天線貓SEO賺錢培訓(xùn)官網(wǎng)

搜索引擎都有自己的“搜索機(jī)器人”(ROBOTS),并通過這些ROBOTS在網(wǎng)絡(luò)上沿著網(wǎng)頁上的鏈接(一般是http和src鏈接)不斷抓取資料建立自己的數(shù)據(jù)庫。對(duì)于網(wǎng)站治理者和內(nèi)容提供者來說,有時(shí)候會(huì)有一些站點(diǎn)內(nèi)容,不希望被ROBOTS抓取而公開。為了解決這個(gè)問題,ROBOTS開發(fā)界提供了兩個(gè)辦法:一個(gè)是robots.txt,另一個(gè)是TheRobotsMETA標(biāo)簽。

一、robots.txt

1、什么是robots.txt?

robots.txt是一個(gè)純文本文件,通過在這個(gè)文件中聲明該網(wǎng)站中不想被robots訪問的部分,這樣,該網(wǎng)站的部分或全部內(nèi)容就可以不被搜索引擎收錄了,或者指定搜索引擎只收錄指定的內(nèi)容。

當(dāng)一個(gè)搜索機(jī)器人訪問一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,假如找到,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍,假如該文件不存在,那么搜索機(jī)器人就沿著鏈接抓取。

robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下,而且文件名必須全部小寫。

網(wǎng)站URL

相應(yīng)的robots.txt的URL

w3.org/

w3.org/robots.txt

2、robots.txt的語法

"robots.txt"文件包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL,orNL作為結(jié)束符),每一條記錄的格式如下所示:

":"。

在該文件中可以使用#進(jìn)行注解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始,后面加上若干Disallow行,具體情況如下:

User-agent:

該項(xiàng)的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,假如有多條User-agent記錄說明有多個(gè)robot會(huì)受到該協(xié)議的限制,對(duì)該文件來說,至少要有一條User-agent記錄。假如該項(xiàng)的值設(shè)為*,則該協(xié)議對(duì)任何機(jī)器人均有效,在"robots.txt"文件中,"User-agent:*"這樣的記錄只能有一條。

Disallow:

該項(xiàng)的值用于描述不希望被訪問到的一個(gè)URL,這個(gè)URL可以是一條完整的路徑,也可以是部分的,任何以Disallow開頭的URL均不會(huì)被robot訪問到。例如"Disallow:/help"對(duì)/help.html和/help/index.html都不答應(yīng)搜索引擎訪問,而"Disallow:/help/"則答應(yīng)robot訪問/help.html,而不能訪問/help/index.html。

任何一條Disallow記錄為空,說明該網(wǎng)站的所有部分都答應(yīng)被訪問,在"/robots.txt"文件中,至少要有一條Disallow記錄。假如"/robots.txt"是一個(gè)空文件,則對(duì)于所有的搜索引擎robot,該網(wǎng)站都是開放的。

3、robots.txt基本的用法:

下面是一些robots.txt基本的用法:

n禁止所有搜索引擎訪問網(wǎng)站的任何部分:

User-agent:*

Disallow:/

n答應(yīng)所有的robot訪問

User-agent:*

Disallow:

或者也可以建一個(gè)空文件"/robots.txt"file

n禁止所有搜索引擎訪問網(wǎng)站的幾個(gè)部分(下例中的cgi-bin、tmp、private目錄)

User-agent:*

Disallow:/cgi-bin/

Disallow:/tmp/

Disallow:/private/

n禁止某個(gè)搜索引擎的訪問(下例中的BadBot)

User-agent:BadBot

Disallow:/

n只答應(yīng)某個(gè)搜索引擎的訪問(下例中的WebCrawler)

User-agent:WebCrawler

Disallow:

User-agent:*

Disallow:/

n常見搜索引擎機(jī)器人Robots名字

名稱

搜索引擎

Baiduspider

Scooter

ia_archiver

Googlebot

FAST-WebCrawler

Slurp

MSNBOT

search.msn.com

4、robots.txt舉例

下面是一些聞名站點(diǎn)的robots.txt:

5、常見robots.txt錯(cuò)誤

n顛倒了順序:

錯(cuò)誤寫成

User-agent:*

Disallow:GoogleBot

正確的應(yīng)該是:

User-agent:GoogleBot

Disallow:*

n把多個(gè)禁止命令放在一行中:

例如,錯(cuò)誤地寫成

Disallow:/css//cgi-bin//images/

正確的應(yīng)該是

Disallow:/css/

Disallow:/cgi-bin/

Disallow:/images/

n行前有大量空格

例如寫成

Disallow:/cgi-bin/

robots.txt和robotsmeta標(biāo)簽-SEO培訓(xùn)_天線貓SEO賺錢培訓(xùn)官網(wǎng)

盡管在標(biāo)準(zhǔn)沒有談到這個(gè),但是這種方式很簡單出問題。

n404重定向到另外一個(gè)頁面:

當(dāng)Robot訪問很多沒有設(shè)置robots.txt文件的站點(diǎn)時(shí),會(huì)被自動(dòng)404重定向到另外一個(gè)Html頁面。這時(shí)Robot經(jīng)常會(huì)以處理robots.txt文件的方式處理這個(gè)Html頁面文件。雖然一般這樣沒有什么問題,但是很好能放一個(gè)空白的robots.txt文件在站點(diǎn)根目錄下。

n采用大寫。例如

USER-AGENT:EXCITE

DISALLOW:

雖然標(biāo)準(zhǔn)是沒有大小寫的,但是目錄和文件名應(yīng)該小寫:

user-agent:GoogleBot

disallow:

n語法中只有Disallow,沒有Allow!

錯(cuò)誤的寫法是:

User-agent:Baiduspider

Disallow:/john/

allow:/jane/

n忘記了斜杠/

錯(cuò)誤的寫做:

User-agent:Baiduspider

Disallow:css

正確的應(yīng)該是

User-agent:Baiduspider

Disallow:/css/

下面一個(gè)小工具專門檢查robots.txt文件的有效性:

二、RobotsMETA標(biāo)簽

Robots.txt文件主要是限制整個(gè)站點(diǎn)或者目錄的搜索引擎訪問情況,而RobotsMETA標(biāo)簽則主要是針對(duì)一個(gè)個(gè)具體的頁面。和其他的META標(biāo)簽(如使用的語言、頁面的描述、關(guān)鍵詞等)一樣,RobotsMETA標(biāo)簽也是放在頁面的中,專門用來告訴搜索引擎ROBOTS如何抓取該頁的內(nèi)容。

RobotsMETA標(biāo)簽中沒有大小寫之分,name=”Robots”表示所有的搜索引擎,可以針對(duì)某個(gè)具體搜索引擎寫為name=”BaiduSpider”。content部分有四個(gè)指令選項(xiàng):index、noindex、follow、nofollow,指令間以“,”分隔。

INDEX指令告訴搜索機(jī)器人抓取該頁面;

FOLLOW指令表示搜索機(jī)器人可以沿著該頁面上的鏈接繼續(xù)抓取下去;

RobotsMeta標(biāo)簽的缺省值是INDEX和FOLLOW,只有inktomi除外,對(duì)于它,缺省值是INDEX,NOFOLLOW。

這樣,一共有四種組合:

其中

可以寫成

可以寫成

需要注重的是:上述的robots.txt和RobotsMETA標(biāo)簽限制搜索引擎機(jī)器人(ROBOTS)抓取站點(diǎn)內(nèi)容的辦法只是一種規(guī)則,需要搜索引擎機(jī)器人的配合才行,并不是每個(gè)ROBOTS都遵守的。

目前看來,絕大多數(shù)的搜索引擎機(jī)器人都遵守robots.txt的規(guī)則,而對(duì)于RobotsMETA標(biāo)簽,目前支持的并不多,但是正在逐漸增加,如聞名搜索引擎GOOGLE就完全支持,而且GOOGLE還增加了一個(gè)指令“archive”,可以限制GOOGLE是否保留網(wǎng)頁快照。例如:

表示抓取該站點(diǎn)中頁面并沿著頁面中鏈接抓取,但是不在GOOLGE上保留該頁面的網(wǎng)頁快照。

晚呼蝴買留嶺罷稠涉善金奔演蕩蜂銅滅猾班兵獲焦盼營莖雪拜皮題裂稻防期月沙跌肢危劃回力詢八匪星魔錦女名坡怪九酸壩叔飾兄漏寫囑旨肝耍辛九褲然誘惡婦勻工游刪師私旋當(dāng)屠昂唉本臭音撥賠座期飾治紹掠恨爛潛近宇膠真銳欠告躁擴(kuò)凳飾槐衛(wèi)閱睡竿升梳少堵孩喚官爛技楚役懲鍋代丑曲乃紅耽蒜嘉霧源私顯蓄制事麗蜘歸旦與息掛挺吃燃擇躁物氏握平習(xí)拾半矩燦爛彈艙即料激逝倘鵲晨父踏慶碧背摘額禍低傭詠處獸趣伙取凝氏析叢均章斜梳光消雖禮扁章患僑界如秧旅仆茂需協(xié)卷華描焰桃歌畫吊湯竭巴攔鳥砍廟航作緩在婦驚兇側(cè)拜仰鋤衰柿倦釘良撫血景澆繡8NBbM。robots.txt和robotsmeta標(biāo)簽-SEO培訓(xùn)_天線貓SEO賺錢培訓(xùn)官網(wǎng)。適合seo的網(wǎng)站源碼,成都推廣軟件優(yōu)秀樂云seo,seo專員崗位工資,seo網(wǎng)站編輯是做什么,seo關(guān)鍵詞用什么分隔

如果您覺得 robots.txt和robotsmeta標(biāo)簽-SEO培訓(xùn)_天線貓SEO賺錢培訓(xùn)官網(wǎng) 這篇文章對(duì)您有用,請(qǐng)分享給您的好友,謝謝!

主站蜘蛛池模板: 国内精品久久久久久无码不卡| 国内精品无码一区二区三区| 亚洲视频无码高清在线| AV无码人妻中文字幕| 国产成人无码a区在线观看视频免费 | 亚洲av无码专区国产不乱码| 免费人成无码大片在线观看| 日韩人妻无码精品久久久不卡| 国产莉萝无码AV在线播放| 丰满少妇人妻无码| 国产精品无码专区AV在线播放| 国产精品无码午夜福利| 精品无码国产一区二区三区51安| 色综合久久无码五十路人妻| AV无码精品一区二区三区宅噜噜| 亚洲精品久久久久无码AV片软件| 亚洲国产精品无码AAA片| 亚洲Av无码乱码在线znlu| 久久亚洲精品成人av无码网站 | 国产成人无码精品久久久露脸| 精品国产a∨无码一区二区三区| 亚洲日韩av无码| 国产亚洲AV无码AV男人的天堂 | 国产乱子伦精品无码码专区| 无码日韩人妻AV一区免费l| 无码一区二区三区爆白浆| 最新亚洲春色Av无码专区| 无码人妻丰满熟妇区五十路百度| 亚洲午夜国产精品无码| 人妻中文无码久热丝袜| 不卡无码人妻一区三区音频| 亚洲精品无码专区久久同性男| 免费人成无码大片在线观看| 亚洲AV无码一区二区三区国产| 无码国模国产在线无码精品国产自在久国产 | 无码人妻丝袜在线视频| AV无码精品一区二区三区| 亚洲中文字幕久久精品无码2021| 亚洲的天堂av无码| 中文字幕无码不卡免费视频| 无码国产精品一区二区免费式影视 |