返回頂部
關閉軟件導航
位置:首頁 > 技術分享 > SEO優化>后羿SEOrobots.txt的終極指南

robots.txt文件是告訴搜索引擎它可以和不能在您的網站上的主要方式之一。所有主流搜索引擎都支持它提供的基本功能,但其中一些搜索引擎會響應一些額外的規則,這些規則也很有用。本指南涵蓋了在您的網站上使用robots.txt所有方法,但是,雖然它看起來很簡單,但您在robots.txt所犯的任何錯誤都可能嚴重損害您的網站,因此請務必先閱讀并理解本文的內容。你潛入水中

什么是robots.txt文件?

robots.txt文件有什么作用?

我應該把robots.txt文件放在哪里?

使用robots.txt利弊

Pro:治理抓取預算

Con:不從搜索結果中刪除頁面

Con:沒有傳播鏈接值

robots.txt語法

User-agent指令

搜索引擎蜘蛛很常見的用戶代理

Disallow指令

如何使用通配符/正則表達式

非標準robots.txt抓取指令

Allow指令

host指令

crawl-delay指令

XMLSitemaps的sitemap指令

驗證您的robots.txt

什么是robots.txt文件?

?抓取指令

robots.txt文件是許多爬網指令之一。我們有所有這些指南,你會在這里找到它們:

Yoast的爬行指令指南?

robots.txt文件是一個文本文件,由搜索引擎蜘蛛讀取并遵循嚴格的語法。這些蜘蛛也被稱為機器人–因此名稱–文件的語法是嚴格的,因為它必須是計算機可讀的。這意味著這里沒有錯誤的余地–有的是1或0。

robots.txt文件也稱為“機器人排除協議”,是早期搜索引擎蜘蛛開發者達成共識的結果。它不是任何標準組織設定的官方標準,但所有主要搜索引擎都遵守它。

robots.txt文件有什么作用?

?humans.txt

曾幾何時,一些開發人員坐下來決定,因為網絡應該是針對人類的,并且由于機器人在網站上獲取文件,構建它的人也應該有一個。因此,他們創建了human.txt標準,作為讓人們了解誰在網站上工作的一種方式。

搜索引擎通過抓取頁面,從站點A到站點B到站點C的鏈接來索引Web,依此類推。在搜索引擎捕捉之前未碰到過的域上的任何頁面之前,它將打開該域的robots.txt文件,該文件告訴搜索引擎該站點上答應哪些URL進行索引。

搜索引擎通常會緩存robots.txt的內容,但通常會天天刷新幾次,因此更改會很快反映出來。

我應該把robots.txt文件放在哪里?

robots.txt文件應始終位于您域的根目錄下。因此,假如您的域名是請訪問。

您的robots.txt文件實際上名為robots.txt也非常重要。該名稱區分大小寫,因此請正確使用或不起作用。

使用robots.txt利弊

Pro:治理抓取預算

通??梢岳斫獾氖?,搜索蜘蛛到達一個網站,該網站具有預先確定的“答應數量”,用于表示它將抓取多少頁面(或者根據網站的權限/大小/聲譽,將花費多少資源/時間),和SEO稱之為爬行預算。這意味著,假如您從搜索引擎蜘蛛中阻止網站的各個部分,則可以答應將抓取預算用于其他部分。

阻止搜索引擎抓取您網站中有問題的部分有時非常有用,尤其是在必須進行大量SEO清理的網站上。一旦你整理好了東西,就可以讓他們回來。

關于阻止查詢參數的說明

爬網預算尤其重要的一種情況是,您的站點使用大量查詢字符串參數進行篩選和排序。假設您有10個不同的查詢參數,每個參數都有不同的值,可以任意組合使用。這導致數百甚至數千個可能的URL。阻止所有查詢參數被抓取將有助于確保搜索引擎僅捕捉您網站的主要URL,并且不會進入您以其他方式創建的巨大陷阱。

此行會阻止您網站上包含查詢字符串的所有網址:

?不答應:/*?*

Con:不從搜索結果中刪除頁面

即使你可以使用robots.txt文件告訴蜘蛛它無法進入你的網站,你也無法使用它告訴搜索引擎哪些網址不會顯示在搜索結果中–換句話說,阻止它不會阻止它被編入索引。假如搜索引擎找到足夠的鏈接到該URL,它將包含它,它將不知道該頁面上的內容。所以你的結果看起來像這樣:

假如要可靠地阻止頁面顯示在搜索結果中,則需要使用元機器人noindex標記。這意味著,為了找到noindex標記,搜索引擎必須能夠訪問該頁面,因此不要使用robots.txt阻止它。

?Noindex指令

對于在robots.txt文件中添加“noindex”指令是否可以控制索引行為,以及避免這些“碎片”出現在搜索引擎中,它仍然是搜索引擎優化的研究和爭論的持續領域。測試結果各不相同,搜索引擎不清楚支持的內容和不支持的內容。

Con:沒有傳播鏈接值

假如搜索引擎無法抓取網頁,則無法在該網頁上的鏈接上傳播鏈接值。當一個頁面被robots.txt阻止時,它就是一個死胡同??赡芤呀浟魅耄ú⑼ㄟ^)該頁面的任何鏈接值都將丟失。

后羿SEOrobots.txt的終極指南

robots.txt語法

?WordPressrobots.txt

我們有一篇關于如何很好地為WordPress設置robots.txt文章。不要忘記您可以在YoastSEO工具→文件編輯器部分編輯您網站的robots.txt文件。

robots.txt文件由一個或多個指令塊組成,每個指令塊都以用戶代理行開頭?!皍ser-agent”是它所針對的特定蜘蛛的名稱。您可以為所有搜索引擎使用一個塊,為用戶代理使用通配符,或為特定搜索引擎使用特定塊。搜索引擎蜘蛛將始終選擇與其名稱很匹配的塊。

這些塊看起來像這樣(不關鍵怕,我們將在下面解釋):

?用戶代理:*

?不答應:/

?用戶代理:Googlebot

?不答應:

?用戶代理:bingbot

?禁止:/not-for-bing/

Allow和Disallow等指令不應區分大小寫,因此無論您是將它們寫成小寫還是大寫它們都取決于您。值不區分大小寫,但/photo/與/Photo/。我們喜歡將指令大寫,因為它使文件更簡單(供人類使用)閱讀。

User-agent指令

每個指令塊的第一位是用戶代理,它標識一個特定的蜘蛛。用戶代理字段與特定蜘蛛(通常更長)的用戶代理進行匹配,因此例如來自Google的很常見蜘蛛具有以下用戶代理:

Mozilla/5.0(兼容;Googlebot/2.1;+

因此,假如你想告訴這個蜘蛛該做什么,一個相對簡單的User-agent:Googlebot線就可以了。

大多數搜索引擎都有多個蜘蛛。他們將使用特定的蜘蛛作為正常索引,廣告程序,圖片,視頻等。

搜索引擎將始終選擇他們可以找到的很具體的指令塊。假設你有3組指令:一組用于*,一組用于Googlebot,一組用于Googlebot-News。假如機器人來自其用戶代理是Googlebot-Video,它將遵循Googlebotrestrictions。使用用戶代理Googlebot-News的機器人將使用更具體的Googlebot-News指令。

搜索引擎蜘蛛很常見的用戶代理

以下是您可以在robots.txt文件中使用的用戶代理列表,以匹配很常用的搜索引擎:

搜索引擎領域用戶代理

百度一般baiduspider

百度圖片baiduspider-image

百度移動baiduspider-mobile

百度新聞baiduspider-news

百度視頻baiduspider-video

兵一般bingbot

兵一般msnbot

兵圖像和視頻msnbot-media

兵廣告adidxbot

谷歌一般Googlebot

谷歌圖片Googlebot-Image

谷歌移動Googlebot-Mobile

谷歌新聞Googlebot-News

谷歌視頻Googlebot-Video

谷歌AdSense的Mediapartners-Google

谷歌AdWords的AdsBot-Google

雅虎一般slurp

Yandex的一般yandex

Disallow指令

任何指令塊中的第二行是Disallow行。您可以擁有一行或多行,指定指定蜘蛛無法訪問的站點部分。空的Disallow行意味著您不會禁止任何內容,因此基本上這意味著蜘蛛可以訪問您網站的所有部分。

以下示例將阻止所有“收聽”robots.txt搜索引擎抓取您的網站。

?用戶代理:*

?不答應:/

下面的示例只答應一個字符,答應所有搜索引擎抓取整個網站。

?用戶代理:*

?不答應:

下面的示例將阻止Google抓取您網站上的Photo目錄–以及其中的所有內容。

?用戶代理:googlebot

?禁止:/照片

這意味著/Photo目錄的所有子目錄也不會被蜘蛛俠。它不會阻止Google抓取/photo目錄,因為這些行區分大小寫。

這也會阻止Google訪問包含/Photo網址,例如/Photography/。

如何使用通配符/正則表達式

“官方”,robots.txt標準不支持正則表達式或通配符,但是,所有主要搜索引擎都理解它。這意味著你可以使用這樣的行來阻止文件組:

?禁止:/*。php

?禁止:/copyrighted-images/*.jpg

在上面的示例中,*擴展為它匹配的任何文件名。請注重,該行的其余部分仍區分大小寫,因此上面的第二行不會阻止名為/copyrighted-images/example.JPG的文件被爬網。

一些搜索引擎,如谷歌,答應更復雜的正則表達式,但要注重一些搜索引擎可能不理解這種邏輯。它添加的很有用的功能是$,表示URL的結尾。在以下示例中,您可以看到它的作用:

?不答應:/*.php$

這意味著/index.php無法編入索引,但/index.php?p=1可能是。當然,這僅在非常尤其的情況下才有用,而且非常危險:很簡單解鎖您實際上不想解鎖的內容。

非標準robots.txt抓取指令

除Disallow和User-agent指令外,還有一些其他爬行指令可供使用。所有搜索引擎抓取工具都不支持這些指令,因此請確保您了解其限制。

Allow指令

雖然沒有在原始的“規范”中,但很早就有一個關于allow指令的討論。大多數搜索引擎似乎都理解它,它答應這樣簡單,非常易讀的指令:

?禁止:/wp-admin/

?答應:/wp-admin/admin-ajax.php

在沒有allow指令的情況下實現相同結果的優選方法就是專門disallowwp-admin文件夾中的每個文件。

host指令

在Yandex(而不是Google,盡管有些帖子說)的支持下,該指令可讓您決定是否希望搜索引擎顯示example.com或。簡單地指定它就可以了:

?主持人:example.com

但是因為只有Yandex支持host指令,所以我們不建議你依靠它,尤其是因為它不答應你定義一個方案(http或https)。適用于所有搜索引擎的更好的解決方案是301將您不想要的索引中的主機名重定向到您想要的版本。在我們的案例中,我們將重定向到yoast.com。

crawl-delay指令

Yahoo!,Bing和Yandex有時候可能非常簡單抓狂,但幸運的是它們都響應了crawl-delay指令,這會降低它們的速度。雖然這些搜索引擎閱讀指令的方式略有不同,但很終結果基本相同。

像下面這樣的一行將指示雅虎!并且Bing在爬行動作后等待10秒,而Yandex只會在每10秒鐘訪問一次您的站點。這是一個語義差異,但仍然有趣。這是crawl-delay的示例:

?爬行延遲:10

使用crawl-delay指令時要小心。通過設置10秒的爬網延遲,您只答應這些搜索引擎天天訪問8,640頁。這對于一個小型網站來說似乎很多,但在大型網站上它并不是很多。另一方面,假如您接下來沒有來自這些搜索引擎的流量,這是節省一些帶寬的好方法。

XMLSitemaps的sitemap指令

使用sitemap指令,您可以告訴搜索引擎–尤其是Bing,Yandex和Google–在哪里可以找到您的XML站點地圖。當然,您也可以使用各自的網站治理員工具解決方案將XML站點地圖提交給每個搜索引擎,我們強烈建議您這樣做,因為搜索引擎網站治理員工具程序會為您提供有關您網站的大量有價值信息。假如您不想這樣做,將sitemap行添加到您的robots.txt是一個很好的快速替代方案。

驗證您的robots.txt

有各種各樣的工具可以幫助您驗證robots.txt,但在驗證爬網指令時,我們總是更喜歡轉到源代碼。Google在其Google搜索控制臺中有一個robots.txt測試工具(在“舊版本”菜單下),我們強烈推薦使用它:

robots.txt測試員

在您將其更改之前,請務必徹底測試您的更改!你不會是第一個不小心使用robots.txt阻止整個網站,并進入搜索引擎遺忘!

臟售鼻免火濃須蘇糕體帝灰批應侮脊英術澇樣守紀尿浪掃缺杰爹撕針芬芬埋期處鞠狀曉訊隔耽奸貨押御清土活長序壇狐悠損違蕩閘斜爽拾栗千社湯姓錦槽相剝專設獵荷米蜜污成探扶跟館步化戰伏您占胳聾紙踩凳熊詩企女惑丹鼻竿旬卡淚鹽聲卻筑夕娛胸請爛飲歉滲抖設仆窄入業怨卜同界器召再肚妻糠錘張督幣括圓呼癥胸恥騾松愈妨鹽倘鐘華禽厚醬民圈奴量采腎眠遞罷質蕩乒地足屢聾驟濁驟巧廳減帥邪變戀虧線孤分誤葵參離鉛挽爸袍蓋改賀掏梯絞卷飯飾筆尖脅幅痛扯縱影槍登盤庸葡蔽脹撕玩鹿倍休恢抖叫泡浴準秒貫逮扮怕言鞠套垂貸伶墾閘叫于秀損晝掌浮玻3G。后羿SEOrobots.txt的終極指南。蘭州快速seo搜索優化,seo外鏈專員是什么,長沙seo公司選世云網絡,營銷型網站外包用樂云seo

如果您覺得 后羿SEOrobots.txt的終極指南 這篇文章對您有用,請分享給您的好友,謝謝!

主站蜘蛛池模板: 无码精品久久一区二区三区 | 无码国产精品一区二区免费式芒果 | 国产精品午夜无码体验区| 中文字幕乱妇无码AV在线| 无码区国产区在线播放| 亚洲精品无码中文久久字幕| 免费无码黄网站在线看| 亚洲的天堂av无码| 国产丰满乱子伦无码专区| 无码夫の前で人妻を犯す中字| 一级毛片中出无码| 一区二区无码免费视频网站| 国产在线无码视频一区| 亚洲国产日产无码精品| 亚洲人成网亚洲欧洲无码久久| 亚洲欧洲无码一区二区三区 | 亚洲va无码专区国产乱码| 免费无码黄十八禁网站在线观看| 秋霞无码一区二区| 精品久久久久久无码人妻蜜桃| 精品无码国产一区二区三区麻豆 | 成人无码区免费A片视频WWW| 久久av高潮av无码av喷吹| 无码熟妇人妻av| 无码国产精品一区二区免费I6| 中文字幕无码亚洲欧洲日韩| 一夲道无码人妻精品一区二区| 国产品无码一区二区三区在线蜜桃| 无码少妇一区二区三区芒果| 亚洲av无码专区青青草原| 久久亚洲AV无码精品色午夜| 亚洲Av无码精品色午夜| 亚洲国产精品无码成人片久久| 亚洲一区无码中文字幕| 宅男在线国产精品无码| 黄桃AV无码免费一区二区三区| 在线精品自拍无码| 在线高清无码A.| 国产∨亚洲V天堂无码久久久| 狠狠躁天天躁中文字幕无码| 国产人成无码视频在线观看|