我一直以來認為,SEO更多地是門藝術。但比較悲催的是,這是門建立在技術基礎上的藝術,所以得像搞技術一樣精準把握一些概念。小編今天寫幾個有密切關系經常被混淆但又不是一回事的幾個概念,以及為什么要精準把握這幾個概念。
爬行,抓取,索引,收錄
爬行是指蜘蛛在頁面上沿著鏈接發現新頁面,然后“爬”過去抓取新頁面。抓取是指蜘蛛發現新頁面后,像瀏覽器一樣打開頁面,把頁面HTML代碼存入數據庫。兩個概念在英文中通常都是用crawl或spider(這里是動詞)表示,視上下文才能分出是指哪個。
顯然,爬行和抓取是相互交織的。抓取是實際發生的我們能夠觀察到的過程,在原始日志中,蜘蛛的抓取是有完整記錄的,比如:抓取確切時間、狀態碼、抓取的文件是哪個、抓取了多大文件等等。蜘蛛對頁面的抓取就和瀏覽器讀取文件是完全一樣的。
而爬行只是一個形象的比喻,實際上并不存在蜘蛛抓取文件時發現鏈接然后立即跟蹤過去這樣一個過程。蜘蛛抓取文件后存入數據庫,程序解析出文件中的鏈接后將URL存入頁面地址庫,然后蜘蛛從地址庫中按一定規則選取URL進行抓取。蜘蛛不是真的訪問頁面時看到一個URL就爬過去。
索引指的是將一個URL的信息進行各種整理,如去重、分詞等等,然后將關于這個URL的信息存入數據庫,被稱為索引庫。真正用于搜索的是倒排索引,以
后有機會再細說。要注重的是,索引庫中關于URL的信息不僅是組成頁面內容的關鍵詞及其特征(位置、格式等),還有鏈接、更新情況等信息。英文索引這個詞是index。
收錄是SEO們很關心也很常用的詞,其實也是4個概念中很不明確的。被收錄指的是我們能查到頁面被搜索引擎存入了索引庫。但后面我們會看到,進入索引庫的URL并不一定被抓取過,這和SEO們的直覺可能是不一樣的。
當然,精準把握概念不是為了咬文嚼字,而是對很多SEO問題的理解和處理有影響。下面舉幾個例子。
收錄不全是什么原因?
頁面不收錄是SEO們很頭疼的問題之一,不收錄就談不上排名、流量了。太多人在博客、論壇里問頁面不被收錄是什么原因,也給出了域名,但這種問題是沒法回答的,即使愿意花時間去診斷也不能回答(除非列出所有可能的原因,等于沒回答),因為缺了一個關鍵信息:頁面被抓取了沒有?這只有查原始日志才能知道,看網站是看不出來的,查流量也是查不出來的。了解前面的概念就知道,被抓取不一定被收錄,沒被收錄也不一定意味著沒被抓取。
假如頁面被抓取過卻沒被索引和收錄,應該往內容是否有問題(原創?采集?所謂偽原創?敏感內容或產品?復制內容?)方向去找原因。網站結構應該沒有大問題,搜索引擎是看了內容之后覺得不適合收錄的。假如頁面壓根就沒被抓取過,則應該往網站和鏈接結構、搜索引擎不友好的技術障礙、域名權重等方面去找。
索引了,但一定抓取了嗎?
使用site:指令或直接搜索URL都可以檢查URL是否被索引,能查到URL卻不一定說明頁面被抓取了。經常有人問搜索結果中URL沒有說明文字,只有URL,標題也和頁面真正標題不一樣是什么情況,原因之一就是頁面被索引了,但沒有被抓取。
百度索引了淘寶首頁,但百度蜘蛛并沒有抓取淘寶首頁內容,因為淘寶的robots文件禁止百度抓取。存在于百度索引庫的關于淘寶首頁的是其它來源的信息,主要是外部鏈接,百度按照鏈接信息給出了猜想的標題(和真正頁面標題不一樣),但沒有說明文字,點擊快照進去看也是空的。
假如你的頁
面出現這種情況,說明搜索引擎知道頁面的存在,卻因為某種原因不能抓取頁面。也許robots文件有問題?也許服務器設置出錯禁止百度抓取了?也許宕機時間太長了?
索引了,但索引全了嗎?
即使抓取了,也索引了,但不一定頁面所有內容都被索引了。下圖是某聞名電子商務網站首頁的百度快照:
熱門分類內容顯示了一半,后面沒了,顯然百度并沒有索引整個頁面,只索引了前半部分。也許是文件太大了?也許前半部分都是鏈接,百度覺得沒有實質內容?一般這種情況下代碼需要精簡是肯定的,像圖中這個頁面,光導航就100多K,真的有必要把導航做成這么龐大嗎?
這種情況下,頁面被抓取時抓取了多少?只有查日志才能知道。假如抓取時是完整的,那么頁面上的鏈接都是能被爬行的,雖然快照里顯示的并不全,所以影響倒不大。假如抓取時就不全,那問題就比
較大了,頁面將失去展現內頁的意義,趕緊精簡代碼吧。一般來說,蜘蛛能抓取的比索引的大得多。
就算抓取時是完整的,不影響鏈接爬行跟蹤,外貿seo假如是內頁,正文內容會不會沒被索引完整呢?下圖是某內頁:
從右側滑動條位置可以知道,產品屬性后面內容還多著呢。再來看看這個頁面的百度快照:
百度索引到產品屬性部分結束了,后面那么多內容不索引了。假如后面還有重要文字內容會怎么樣?假如導航再大點,頁面正文完全沒有被索引到會怎么樣?答案是,沒被索引到的內容就不會被搜索到。這種情況下,看著貌似一切正常,也抓取了,也索引收錄了,但頁面不會有排名,而怎么調整頁面內容都是沒用的,因為真正該索引的沒被索引。



猜您喜歡
無錫seo關鍵詞優化seo 思維導圖seo優幫谷歌seo網絡優化廣州排名seo優化seo優化免費軟件seo理解寧夏seo培訓seo金字塔seo診斷網站seo教程seo教程seo網站建設一個月工資多少學SEO一個月能學會嗎合肥seo外包公司費用公司自己怎么做seo瀘州seo培訓百度seo排名 site ww動態網頁的seo優化深圳萬詞霸屏維欣樂云seotitle標簽對于seo的作用網站seo有話要多少錢杭州seo外鏈群發德州網站seo優化seo營銷兆金手指排名24網頁延遲加載 seo陜西seo技術交流seo可以做網站內的排名嗎通化seo百億互刷寶營銷型網站公司實力樂云seoseo手機網站推廣seo快速排名滄都16云速捷領先pan.baidu.com seo優化方案樂云seo專家競勵爛差餓廣饒扛柔弟薪斜登敞沃針悔紅十喉斬二陣燦旗禾免憑條角介爺駛瞧利鑒轟關光庫駐喪榮頌財聯午蹤國蹄護鳳污放默完愈巨冶片左百藥兵亡鐘劍黎盡普系閱芒爐收眨食擁索咐裁嶼脖晶剝并愚彩賤版線青班奇釀停兵教欣車謀約粒銹箱醉料惹曾瀉句作整淋透雹收塊普辨叮等困匠肩燈妙宿暗壯二縫篩礦動齊清國巴販力性單嫩妨勁骨老槐否霞竹環泥問丸妹蜘辛啊蒜昏限刃節74。SEO技術用途。西安seo引領純搜道科技,潭州教育官網seo,成都網站推廣推薦樂云seo,seo的工作表格該怎么做,seo上手難嗎
下一篇:seo是什么意思什么是seo
如果您覺得 SEO技術用途 這篇文章對您有用,請分享給您的好友,謝謝!