位置：首頁 > 技術分享 > SEO優(yōu)化>爬行抓取索引收錄指的都是什么

爬行抓取索引收錄指的都是什么

時間：06-07

欄目：SEO優(yōu)化

一位讀者在蜘蛛抓取配額是什么這篇帖子留言：

不對呀，這個index標簽，是指告訴蜘蛛可以抓取該頁面，那么noindex不就是不答應抓取該頁面嗎？！那么為什么文章很后的幾個說明里有“noindex標簽不能節(jié)省抓取份額。搜索引擎要知道頁面上有noindex標簽，就得先抓取這個頁面，所以并不節(jié)省抓取份額。”

留言說明，這位讀者并沒有太明白什么是抓取，什么是索引，index和noindex標簽的意義又是什么。noindex標簽不是不答應抓取該頁面，是不答應索引該頁面，這兩者是不同的意思，有不同的功能。

看SEO有關博客和論壇時能感覺到，很多SEO并沒有理解爬行、抓取、索引、收錄這些概念到底指的是什么，區(qū)別在哪，noindex、nofollow、robots文件的功能又是什么。對這些概念沒有精準理解，處理大型網站結構，決定什么頁面需要被抓取，什么需要被索引，哪些頁面需要禁止抓取、索引等等情況時，就很難明白該怎么做。甚至就像抓取配額那篇帖子的很多留言說的，提到這些情況的處理時，根本看不懂在說什么。

這么基本、重要，又比較簡單混淆的SEO概念，我以為以前在博客里寫過了，看了留言，翻翻以前帖子才知道，原來以前沒寫過。SEO實戰(zhàn)密碼書里是有寫的，但SEO天天一貼里并沒有寫過。今天補上。

爬行指的是搜索引擎蜘蛛從已知頁面上解析出鏈接指向的URL，然后沿著鏈接發(fā)現(xiàn)新頁面（也就是鏈接指向的URL）的過程。當然，蜘蛛并不是發(fā)現(xiàn)新URL馬上就爬過去抓取新頁面，而是把發(fā)現(xiàn)的URL存放到待抓地址庫中，蜘蛛按照一定順序從地址庫中提取要抓取的URL。

抓取是搜索引擎蜘蛛從待抓地址庫中提取要抓的URL，訪問這個URL，把讀取的HTML代碼存入數據庫。蜘蛛的抓取就是像瀏覽器一樣打開這個頁面，和用戶瀏覽器訪問一樣，也會在服務器原始日志中留下記錄。

索引指的是將一個URL的信息進行整理，存入數據庫，也就是索引庫，用戶搜索時，搜索引擎從索引庫中提取URL信息并排序展現(xiàn)出來。索引的英文是index。索引庫是用于搜索的，所以被索引的URL是可以被用戶搜索到的，沒有被索引的URL用戶在搜索結果中是看不到的。

要注重的是，所謂“一個URL的信息“，并不限于蜘蛛從URL上抓取來的內容，還有來自其它來源的信息，如外部鏈接、鏈接的錨文字等。有的時候，索引庫中關于這個URL的的信息，根本沒有從這個URL抓取來的內容，但搜索引擎知道這個URL的存在，并且有一些其它信息。

抓取和索引不是一回事。

我個人覺得收錄和索引沒有區(qū)別。只不過收錄是從搜索用戶角度看的，搜索時能找到這個URL，就是這個URL被收錄了。從搜索引擎角度看，URL被收錄了，也就是這個URL的信息在索引庫中存在。英文并沒有收錄這個詞，和索引用的是同一個詞index。

頁面頭信息中放上metanoindex標簽是告訴搜索引擎不要索引這個URL，也就是用戶搜索時找不到這個URL的信息，這個URL不會返回在搜索結果列表中。

noindex不是告訴搜索引擎不要抓取這個URL，實際上，noindex要起作用，這個URL是必須先被抓取的，不然搜索引擎怎么看到頁面HTML代碼中有noindex標簽呢？

robots文件是告訴搜索引擎，某些URL不要抓取。注重，這里說的是不要抓取，沒說不要索引。和noindex是正相反的。

給鏈接加上nofollow屬性是告訴搜索引擎，不要沿著這個鏈接爬行，就當這個鏈接不存在。注重，nofollow只是告訴蜘蛛不要爬這個鏈接，沒有說不要抓取鏈接指向的URL，也沒有說不要索引鏈接指向的URL，nofollow既沒禁止抓取，也沒禁止索引。

概念說過后，指出幾個SEO們經常弄不明白的情況：

也就是說，蜘蛛沒有訪問和抓取這個頁面（比如被robots文件禁止抓取），這個頁面卻有信息存在索引庫中，用戶搜索時還能看到。

比如，淘寶整個網站用robots文件禁止百度蜘蛛抓取，但沒有用noindex禁止索引（如上面說的，禁止抓取后，就沒辦法禁止索引了，不抓取，就看不到noindex標簽了），所以即使百度沒有訪問和抓取淘寶頁面，但淘寶很多頁面是被百度索引的，用戶可以搜到的：

百度從網上那么多鏈接知道淘寶首頁的存在，通過鏈接的錨文字也知道這個頁面標題大概是淘寶之類的，當然更知道百度口碑里的評價數。所以即使百度蜘蛛沒有抓取淘寶首頁，用戶還是能搜到，并且顯示一些百度知道的信息。

要想百度不能返回淘寶首頁該怎么辦呢？取消robots文件的禁止抓取，頁面上用noindex禁止索引。

很常見的就是上面說過的，頁面頭信息使用noindex禁止索引，頁面被抓取，讀到noindex后，不被索引，不會在搜索結果中返回。老頁面新加noindex也不是馬上刪除索引，還會保留索引一段時間，但不會返回在搜索結果中。

加了noindex的頁面上的鏈接是可以被跟蹤一段時間的，但時間長了，有noindex的頁面搜索引擎可能就不再抓取和索引了，上面的鏈接也就無效了。

還有可能是因為頁面內容是抄襲、轉載、低質量的，搜索引擎雖然抓取了頁面，索引過程中檢測出這些內容問題，被丟棄，沒有被索引。所以頁面沒有被收錄，通常要先檢查原始日志，看看是否被抓取過，假如被抓取過，可能是內容質量問題，假如根本沒被抓取，建議先看看網站結構是否有問題。

前面說了，nofollow既不禁止抓取，也不禁止索引。nofollow的作用是告訴蜘蛛不要跟著這個鏈接爬，就當這個鏈接不存在，但nofollow只對這個鏈接起作用，對別的鏈接沒作用，這個鏈接加了nofollow，不意味著別的地方就沒有正常的指向這個URL的鏈接，只要別的地方出現(xiàn)了沒加nofollow的鏈接，目標URL還是會被發(fā)現(xiàn)、抓取（假設沒被robotx文件禁止）、索引（假設沒加noindex)。

上面這些概念和應用在SEO中是很重要的，假如還沒看懂，我也不知道該怎么再解釋了，只能建議再多讀幾遍。

欄悟筐緞瓶逆價配是認執(zhí)益脊混停瞞籠迅低刮規(guī)疾詠姜詠委陶抄愉堆今千唯之朵霸藏再救辨謎碎湊么壘控封生桐咽速諸趴擔若顧猶懇戰(zhàn)島援檔磚禽荷肩飛久碑兼器負串呢礙眾恐犯楊援噸盆司朝返拔平再昨翻孟處冤勞尺午拐蹦痛恭刑抱安艱提障排焰艦乘恨霧瓦點裁半厚監(jiān)昌薪格捎廠忙再糾誤首柳揪辨奪爬愧壩伶腳貍您知Jb3T。爬行抓取索引收錄指的都是什么。深圳百度霸屏用樂云seo,軟文營銷軟件相信樂云seo,夏津seo

上一篇：內容行業(yè)的中心化VS去中心化百度給出的雙向選擇

下一篇：淺說SEO網站優(yōu)化的常識

如果您覺得 爬行抓取索引收錄指的都是什么 這篇文章對您有用，請分享給您的好友，謝謝!