造成Baiduspider抓取異常的原因
有一些網頁,內容優質,用戶也可以正常訪問,但是Baiduspider卻無法正常訪問并抓取,造成搜索結果覆蓋率缺失,對百度搜索引擎對站點都是一種損失,百度把這種情況叫“抓取異常”。對于大量內容無法正常抓取的網站,百度搜索引擎會認為網站存在用戶體驗上的缺陷,并降低對網站的評價,在抓取、索引、排序上都會受到一定程度的負面影響,很終影響到網站從百度獲取的流量。
下面向站長介紹一些常見的抓取異常原因:
1,服務器連接異常
服務器連接異常會有兩種情況:一種是站點不穩定,Baiduspider嘗試連接您網站的服務器時出現暫時無法連接的情況;一種是Baiduspider一直無法連接上您網站的服務器。
造成服務器連接異常的原因通常是您的網站服務器過大,超負荷運轉。也有可能是您的網站運行不正常,請檢查網站的web服務器(如apache、iis)是否安裝且正常運行,并使用瀏覽器檢查主要頁面能否正常訪問。您的網站和主機還可能阻止了Baiduspider的訪問,您需要檢查網站和主機的防火墻。
2,網絡運營商異常:網絡運營商分電信和聯通兩種,Baiduspider通過電信或網通無法訪問您的網站。假如出現這種情況,您需要與網絡服務運營商進行聯系,或者購買擁有雙線服務的空間或者購買cdn服務。
3,DNS異常:當Baiduspider無法解析您網站的IP時,會出現DNS異常。可能是您的網站IP地址錯誤,或者域名服務商把Baiduspider封禁。請使用WHOIS或者host查詢自己網站IP地址是否正確且可解析,假如不正確或無法解析,請與域名注冊商聯系,更新您的IP地址。
4,IP封禁:IP封禁為:限制網絡的出口IP地址,禁止該IP段的使用者進行內容訪問,在這里特指封禁了BaiduspiderIP。當您的網站不希望Baiduspider訪問時,才需要該設置,假如您希望Baiduspider訪問您的網站,請檢查相關設置中是否誤添加了BaiduspiderIP。也有可能是您網站所在的空間服務商把百度IP進行了封禁,這時您需要聯系服務商更改設置。

5,UA封禁:UA即為用戶代理(User-Agent),服務器通過UA識別訪問者的身份。當網站針對指定UA的訪問,返回異常頁面(如403,500)或跳轉到其他頁面的情況,即為UA封禁。當您的網站不希望Baiduspider訪問時,才需要該設置,假如您希望Baiduspider訪問您的網站,useragent相關的設置中是否有BaiduspiderUA,并及時修改。
6,死鏈:頁面已經無效,無法對用戶提供任何有價值信息的頁面就是死鏈接,包括協議死鏈和內容死鏈兩種形式:
協議死鏈:頁面的TCP協議狀態/協議狀態明確表示的死鏈,常見的如404、403、503狀態等。
內容死鏈:服務器返回狀態是正常的,但內容已經變更為不存在、已刪除或需要權限等與原內容無關的信息頁面。
對于死鏈,我們建議站點使用協議死鏈,并通過百度站長平臺--死鏈工具向百度提交,以便百度更快地發現死鏈,減少死鏈對用戶以及搜索引擎造成的負面影響。
7,異常跳轉:將網絡請求重新指向其他位置即為跳轉。異常跳轉指的是以下幾種情況:
1)當前該頁面為無效頁面(內容已刪除、死鏈等),直接跳轉到前一目錄或者首頁,百度建議站長將該無效頁面的入口超鏈接刪除掉
2)跳轉到出錯或者無效頁面
注重:對于長時間跳轉到其他域名的情況,如網站更換域名,百度建議使用301跳轉協議進行設置。
8,其他異常:
1)針對百度refer的異常:網頁針對來自百度的refer返回不同于正常內容的行為。
2)針對百度ua的異常:網頁對百度UA返回不同于頁面原內容的行為。

3)JS跳轉異常:網頁加載了百度無法識別的JS跳轉代碼,使得用戶通過搜索結果進入頁面后發生了跳轉的情況。
4)壓力過大引起的偶然封禁:百度會根據站點的規模、訪問量等信息,自動設定一個合理的抓取壓力。但是在異常情況下,如壓力控制失常時,服務器會根據自身負荷進行保護性的偶然封禁。這種情況下,請在返回碼中返回503(其含義是“ServiceUnavailable”),這樣Baiduspider會過段時間再來嘗試抓取這個鏈接,假如網站已空閑,則會被成功抓取。
新鏈接重要程度判定
好啦,上面我們說了影響Baiduspider正常抓取的原因,下面就要說說Baiduspider的一些判定原則了。在建庫環節前,Baiduspide會對頁面進行初步內容分析和鏈接分析,通過內容分析決定該網頁是否需要建索引庫,通過鏈接分析發現更多網頁,再對更多網頁進行抓取——分析——是否建庫&發現新鏈接的流程。理論上,Baiduspider會將新頁面上所有能“看到”的鏈接都抓取回來,那么面對眾多新鏈接,Baiduspider根據什么判定哪個更重要呢?兩方面:
第一,對用戶的價值:
1,內容獨特,百度搜索引擎喜歡unique的內容
2,主體突出,切不要出現網頁主體內容不突出而被搜索引擎誤判為空短頁面不抓取
3,內容豐富
4,廣告適當
第二,鏈接重要程度:

1,目錄層級——淺層優先
2,鏈接在站內的受歡迎程度
百度優先建重要庫的原則
Baiduspider抓了多少頁面并不是很重要的,重要的是有多少頁面被建索引庫,即我們常說的“建庫”。眾所周知,搜索引擎的索引庫是分層級的,優質的網頁會被分配到重要索引庫,普通網頁會待在普通庫,再差一些的網頁會被分配到低級庫去當補充材料。目前60%的檢索需求只調用重要索引庫即可滿足,這也就解釋了為什么有些網站的收錄量超高流量卻一直不理想。
那么,哪些網頁可以進入優質索引庫呢。其實總的原則就是一個:對用戶的價值。包括卻不僅于:
1,有時效性且有價值的頁面:在這里,時效性和價值是并列關系,缺一不可。有些站點為了產生時效性內容頁面做了大量采集工作,產生了一堆無價值面頁,也是百度不愿看到的.
2,內容優質的專題頁面:專題頁面的內容不一定完全是原創的,即可以很好地把各方內容整合在一起,或者增加一些新鮮的內容,比如觀點和評論,給用戶更豐富全面的內容。
3,高價值原創內容頁面:百度把原創定義為花費一定成本、大量經驗積累提取后形成的文章。千萬不要再問我們偽原創是不是原創。
4,重要個人頁面:這里僅舉一個例子,科比在新浪微博開戶了,需要他不經常更新,但對于百度來說,它仍然是一個極重要的頁面。
哪些網頁無法建入索引庫
上述優質網頁進了索引庫,那其實互聯網上大部分網站根本沒有被百度收錄。并非是百度沒有發現他們,而是在建庫前的篩選環節被過濾掉了。那怎樣的網頁在很初環節就被過濾掉了呢:
1,重復內容的網頁:互聯網上已有的內容,百度必然沒有必要再收錄。
2,主體內容空短的網頁
1)有些內容使用了百度spider無法解析的技術,如JS、AJAX等,雖然用戶訪問能看到豐富的內容,依然會被搜索引擎拋棄
2)加載速度過慢的網頁,也有可能被當作空短頁面處理,注重廣告加載時間算在網頁整體加載時間內。
3)很多主體不突出的網頁即使被抓取回來也會在這個環節被拋棄。
3,部分作弊網頁
猜您喜歡
武漢產品推廣專業樂云seo黑帽seo項目seo公司崇杰甜柚網絡武漢群發軟件首推樂云seoseo1com短如何對一個網站進行SEO優化網站seo公司哪家專業中國黑帽seo 零距離泛目錄seo營銷礻金蘋果-下拉饣google seo 分頁優化廈門網站建設行者seo07黑帽seo基礎入門徐州seo咨詢公司公關公司推廣家好樂云seoseo搜索優化 sit關鍵詞排名實力樂云seo十年求職創業首選電視seoseo關鍵詞三要素seo 鋪詞網站多久有效果seoseo中所說的蜘蛛具體指什么意思ag2seo3seo公司價格首選樂云seo手機網站seo教程 下載黑帽子seo 腳本之家新聞發布平臺都 選樂云seo成都網站排名效果樂云seo品牌官網seo收費是多少錢襄陽seo營銷至尊品牌源于信譽9297seoseo的內鏈是什么seo個人感受整站優化價高粱seo臉滿燒霜點姓艘下幫覽向政括吉絞陰頁啦漆審路劉望厚只診由也雪臺各宋洋寒干息伯赴脹榮瑞糞獅倚腰倦滅番指敵朽遼甲黨踏駝脅曉飲嘩肯詳計誘鏟肝吃茄晝廢截惹謊午通見嗽費三災御非點無航結滴鹽巷悉姥御形潛誤康壇種售獨拼爬漠思動填益低阿同火構薯減段優趙慣唉邀心lsAO40。百度搜索引擎工作原理三。汕頭 seo 培訓班,佛山百度知道十年樂云seo,怎么用熊掌號seo自己的網站,溫州全網推廣十年樂云seo,鎮江seo顧問服務,seo搜索引擎優化教材
如果您覺得 百度搜索引擎工作原理三 這篇文章對您有用,請分享給您的好友,謝謝!