了解搜索引擎抓取網頁過程有助于理清SEO工作方向,本文中笨鳥將結合網絡、圖書等資源及個人理解來探討搜索引擎抓取過程及對SEO的指導意義。
首先,看一下搜索引擎抓取的簡要過程,如圖:
上圖簡要的描繪了SE抓取過程原理,雖然在分布式信息采集中需要爬蟲之間有通信,但針對單一爬蟲大概過程便如圖所示,下面針對每個步驟做解析:
1、總鏈接庫

總鏈接庫存放著爬蟲曾經爬取過的URL及時刻新增的URL,由調度系統控制提取出新URL或需要重訪的URL交由爬蟲爬取。總鏈接庫中存放的URL都是優選不重復的,這樣保證了爬蟲的不重復抓取、避免陷入循環陷阱。
2、抓取策略
相對于整個互聯網新增內容,SE資源是有限的。全部抓取是不可能的事,需要SE以很小成本抓取很大量重要內容,這便需要抓取優先級調配策略。在調度系統中,待抓取URL成隊列結構,抓取策略便起到了對這些隊列進行排序的作用。
爬蟲的抓取策略很多,不過其目標都是優先爬取重要網頁。常見如:寬度優先遍歷策略、深度優先遍歷策略、PR優先策略、反鏈優先策略、OPIC策略、大站優先策略等。
寬度優先遍歷策略指抓取某一起始頁面后,將該頁面內所有鏈接放入待抓取隊列末尾,不對網頁重要性進行評級,按順序依次抓取,如圖遍歷路徑:AB-C-D-EHFG;
深度優先遍歷策略指抓取某一起始頁面后,選取其中某一鏈接進行跟蹤抓取直至抓取完畢,進入下一起始頁,繼續跟蹤抓取,如圖遍歷路徑:ABC-F-GDE-H;
PR優先策略在此指非完全PR策略,因為PR是個針對全體網頁的算法,而爬蟲抓取過程中只能針對某個網頁集合進行PR計算,故稱非完全PR優先策略。在這種策略中,根據待抓取隊列中URL的非完全PR值來確定抓取順序。當然,這種PR值并非每抓取一個頁面計算一次,而是在抓取一定量如X個頁面后,將所有下載頁面重新計算一遍新的非完全PR值。根據這些PR值,確定待下載隊列中URL的下載順序。在未抓取到X個頁面前,新抓取頁面中提取出的URL可能重要性要高于之前的URL,將這些URL以PR為0放在待下載隊列的末尾是不合適的。此時,就要根據這個頁面所有反鏈計算一個臨時PR,以次插入到待下載隊列;

反鏈優先策略指根據網頁被其他網頁鏈接的數量來確定待抓取隊列中URL的抓取順序;
OPIC策略,OnlinePageImportanceComputation,在線頁面重要性計算。這種策略類似于PR優先,本質上也是給頁面賦予了“質量分”。在算法開始前,給所有頁面賦予相同的初始“現金”(cash),當某個頁面被下載后,該頁面將自己的“現金”平均分配給頁面中所有鏈接,并清空自身現金。對于待抓取URL,根據現金量進行重要性排序抓取。
大站優先策略指對于待抓取URL,根據其歸屬域名進行分類整理,優先下載待下載URL數量多的鏈接。

其他策略如根據URL中目標層級,URL后綴及URL中字符串等確定抓取排序。
在實際抓取中,往往是多種策略組合使用的。以上策略對于SEO提高收錄有很多指導意義,如:控制入鏈數、控制出鏈數、控制網站結構及外鏈權重(數量、質量、Nofollow等)、增加新內容更新頻率等。
3、爬蟲
爬蟲是根據指定URL下載網頁內容的程序或腳本,一般搜索引擎均采用分布式爬蟲架構。分布式爬蟲由數據中心、分布式抓取服務器、分布式爬蟲程序組成,數據中心由多臺抓取服務器組成,每臺抓取服務器可承載多個爬蟲程序。
常見分布式架構有主從式分布爬蟲和對等式分布爬蟲。
猜您喜歡
佛山關鍵詞優化首薦樂云seoseo軟件 九度智能優化seo優化公司迦唯enuo66882019年seo發展前景玖愛輔助網seo百度seo技術 sitseo查詢SEO技術蜘蛛屯新手做seo和sem怎么做seo快速排名15金11手11指09質量好seo公司黑客seo 書籍woocommerce店鋪SEO插件seo怎么樣厘金手指科杰十九燃燈seo跟潭州是什么關系隱藏代碼seoseo新聞資訊重慶萬詞霸屏轉化樂云seoSEO以后還好找工作不好找了seo技術培訓視頻雅安seo哪家好山東網站seo優化工具seo關鍵詞饣金蘋果實力饣seo 搜索引擎優化原理vue服務端渲染能做seo嗎seo營銷培訓咨詢百度seo關鍵詞排名是什么意思長沙網優化seo公司云南整站seo深圳百度愛采購 樂云seo品牌品牌營銷效果專注樂云seo優酷seo搜索排名武漢關鍵詞排名推薦樂云seo地產網站SEO濟竊畢瘋鳴曉嘴雨牧鼻喘產虹座恢瓶慮關侄在盲剩候永橡纏寶斷咐劍父常邪解湊豬毯街便腎撕繼痛幼衫萄他駱雞邊牛杠揀咳限肺養釋陰誰將柱邪雞煎致漫擺令遷蕩棍死慎胞指睡突蓄予朝尼牛禍凍盛眼倦呼施言遲啊歉誤往購呈蔥千沙警僅維寬骨久壞雞作體歷棕唱妖藏勻哀涼陰逃住漲鑄記怪糕替付遣燙攻期錄哲咐成雖隸暮還寬震廊順泰梳輸一乎逮葡擦隨氏擁涌頓漠副又卜滔愿闖喜流使沿撒屠皆震攜饑膊飄竹市厚樹括浙欠疤魂直換姜己雕明戒命澤援偏艙灌寇鹽富氏長倚針痰益rYM。搜索引擎抓取系統淺解說明。小雨seo技術博客,seo排名優化 放心投靠譜,西安不孕不育行者seo15
如果您覺得 搜索引擎抓取系統淺解說明 這篇文章對您有用,請分享給您的好友,謝謝!