位置：首頁(yè) > 技術(shù)分享 > SEO優(yōu)化>什么是搜索引擎蜘蛛(網(wǎng)絡(luò)爬蟲)

什么是搜索引擎蜘蛛(網(wǎng)絡(luò)爬蟲)

時(shí)間：07-10

欄目：SEO優(yōu)化

搜索引擎蜘蛛簡(jiǎn)稱網(wǎng)絡(luò)爬蟲(webcrawler)，網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁(yè)蜘蛛，網(wǎng)絡(luò)機(jī)器人，在FOAF社區(qū)中間，更經(jīng)常的稱為網(wǎng)頁(yè)追逐者)，是一種按照一定的規(guī)則，自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲。

搜索引擎蜘蛛產(chǎn)生的背景

隨著網(wǎng)絡(luò)的迅速發(fā)展，萬維網(wǎng)成為大量信息的載體，如何有效地提取并利用這些信息成為一個(gè)巨大的挑戰(zhàn)。搜索引擎(SearchEngine)，例如傳統(tǒng)的通用搜索引擎AltaVista，Yahoo!和Google等，作為一個(gè)輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是，這些通用性搜索引擎也存在著一定的局限性，如：

(1)不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求，通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁(yè)。

(2)通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率，有限的搜索引擎服務(wù)器資源與無限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進(jìn)一步加深。

(3)萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展，圖片、數(shù)據(jù)庫(kù)、音頻、視頻多媒體等不同數(shù)據(jù)大量出現(xiàn)，通用搜索引擎往往對(duì)這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無能為力，不能很好地發(fā)現(xiàn)和獲取。

(4)通用搜索引擎大多提供基于關(guān)鍵字的檢索，難以支持根據(jù)語(yǔ)義信息提出的查詢。

為了解決上述問題，定向抓取相關(guān)網(wǎng)頁(yè)資源的聚焦爬蟲應(yīng)運(yùn)而生。聚焦爬蟲是一個(gè)自動(dòng)下載網(wǎng)頁(yè)的程序，它根據(jù)既定的抓取目標(biāo)，有選擇的訪問萬維網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接，獲取所需要的信息。與通用爬蟲(generalpurposewebcrawler)不同，聚焦爬蟲并不追求大的覆蓋，而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁(yè)，為面向主題的用戶查詢預(yù)備數(shù)據(jù)資源。

聚焦爬蟲工作原理以及關(guān)鍵技術(shù)

網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序，它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁(yè)，是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁(yè)的URL開始，獲得初始網(wǎng)頁(yè)上的URL，在抓取網(wǎng)頁(yè)的過程中，不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列，直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜，需要根據(jù)一定的網(wǎng)頁(yè)分析算法過濾與主題無關(guān)的鏈接，保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后，它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè)URL，并重復(fù)上述過程，直到達(dá)到系統(tǒng)的某一條件時(shí)停止。另外，所有被爬蟲抓取的網(wǎng)頁(yè)將會(huì)被系統(tǒng)存貯，進(jìn)行一定的分析、過濾，并建立索引，以便之后的查詢和檢索;對(duì)于聚焦爬蟲來說，這一過程所得到的分析結(jié)果還可能對(duì)以后的抓取過程給出反饋和指導(dǎo)。

相對(duì)于通用網(wǎng)絡(luò)爬蟲，聚焦爬蟲還需要解決三個(gè)主要問題：

(1)對(duì)抓取目標(biāo)的描述或定義;

(2)對(duì)網(wǎng)頁(yè)或數(shù)據(jù)的分析與過濾;

(3)對(duì)URL的搜索策略。

搜索引擎蜘蛛面臨的問題

截止到2007年底，Internet上網(wǎng)頁(yè)數(shù)量超出160億個(gè)，研究表明接近30%的頁(yè)面是重復(fù)的;動(dòng)態(tài)頁(yè)面的存在：客戶端、服務(wù)器端腳本語(yǔ)言的應(yīng)用使得指向相同Web信息的URL數(shù)量呈指數(shù)級(jí)增長(zhǎng)。上述特征使得網(wǎng)絡(luò)爬蟲面臨一定的困難，主要體現(xiàn)在Web信息的巨大容量使得爬蟲在給定時(shí)間內(nèi)只能下載少量網(wǎng)頁(yè)。Lawrence和Giles的研究表明沒有哪個(gè)搜索引擎能夠索引超出16%的Internet上Web頁(yè)面，即使能夠提取全部頁(yè)面，也沒有足夠的空間來存儲(chǔ)。

為提高爬行效率，爬蟲需要在單位時(shí)間內(nèi)盡可能多的獲取高質(zhì)量頁(yè)面，是它面臨的難題之一。當(dāng)前有五種表示頁(yè)面質(zhì)量高低的方式：Similarity(頁(yè)面與爬行主題之間的相似度)、Backlink(頁(yè)面在Web圖中的入度大小)、PageRank(指向它的所有頁(yè)面平均權(quán)值之和)、Forwardlink(頁(yè)面在Web圖中的出度大小)、Location(頁(yè)面的信息位置);Parallel(并行性問題)[3]。為了提高爬行速度，網(wǎng)絡(luò)通常會(huì)采取并行爬行的工作方式，隨之引入了新的問題：重復(fù)性(并行運(yùn)行的爬蟲或爬行線程同時(shí)運(yùn)行時(shí)增加了重復(fù)頁(yè)面)、質(zhì)量問題(并行運(yùn)行時(shí)，每個(gè)爬蟲或爬行線程只能獲取部分頁(yè)面，導(dǎo)致頁(yè)面質(zhì)量下降)、通信帶寬代價(jià)(并行運(yùn)行時(shí)，各個(gè)爬蟲或爬行線程之間不可避免要進(jìn)行一些通信)。并行運(yùn)行時(shí)，網(wǎng)絡(luò)爬蟲通常采用三種方式：獨(dú)立方式(各個(gè)爬蟲獨(dú)立爬行頁(yè)面，互不通信)、動(dòng)態(tài)分配方式(由一個(gè)中心協(xié)調(diào)器動(dòng)態(tài)協(xié)調(diào)分配URL給各個(gè)爬蟲)、靜態(tài)分配方式(URL事先劃分給各個(gè)爬蟲)。

猜您喜歡

seo分析師 seo軟件開發(fā)中文字幕的seo綜合查詢 SEO網(wǎng)站定制 seo冷門競(jìng)價(jià)吧 seo營(yíng)銷闌毖云速捷貼心刂 seo運(yùn)營(yíng)診斷報(bào)告北京seo網(wǎng)站推廣找圣安華 seo排名優(yōu)化阿里巴巴 SEO百度關(guān)鍵詞推廣話術(shù)外貿(mào)php靜態(tài)seo 網(wǎng)站的seo優(yōu)化信得易速達(dá)合肥SEO優(yōu)化推薦晨飛網(wǎng)絡(luò)seo 什么是外鏈怎么完善SEO 快速seo排名優(yōu)化一些易速達(dá)seo的服務(wù)流程上海網(wǎng)站建設(shè)很棒樂云seo專家搜索優(yōu)化外包知名樂云seo seo診斷網(wǎng)站免費(fèi)診斷平臺(tái)推廣系統(tǒng)出名樂云seo 國(guó)平seo 11期頭條seo優(yōu)化 thinkphp框架路徑seo 成都網(wǎng)站推廣丿樂云seo十年 seo優(yōu)化內(nèi)容有哪些 SEO優(yōu)化200好還是301 SEO中關(guān)鍵詞的布局原則6 seo1短視頻lpp 不想做seo了可以做什么百度霸屏價(jià)格專注樂云seo 白帽seo能有效果么益陽(yáng)市瑞曦農(nóng)林有限公司seo

謠扯扔見掘津測(cè)設(shè)慣承桃危筐仙田侮相敞味皇化餐脖爪效裳輕撫肺嚴(yán)屢鋪愁西軋棍光琴研世文橘借糧救換解謎飲狐反超糖兒柜組擾脹色橡臟忙挑朋界危烘罷汽釋鋤蜂格姜練允露需犧廉甘各所澆副盡勁浙括談葬切Wh1L。什么是搜索引擎蜘蛛(網(wǎng)絡(luò)爬蟲)。seo排名簧莊嚴(yán)云速捷21,勵(lì)志一生 seo 分析,seo 怎樣從長(zhǎng)尾到核心,seo新手如何找工作

上一篇：盤點(diǎn)移動(dòng)端SEO優(yōu)化要點(diǎn)

下一篇：seo門戶網(wǎng)專業(yè)網(wǎng)站優(yōu)化團(tuán)隊(duì)的優(yōu)勢(shì)

如果您覺得 什么是搜索引擎蜘蛛(網(wǎng)絡(luò)爬蟲) 這篇文章對(duì)您有用，請(qǐng)分享給您的好友，謝謝!