返回頂部
關(guān)閉軟件導(dǎo)航
位置:首頁 > 技術(shù)分享 > SEO優(yōu)化>搜索引擎的爬蟲

對(duì)于搜索引擎來說,要抓取互聯(lián)網(wǎng)上所有的網(wǎng)頁是安全不可能的,容量很大的搜索引擎也不過是抓取了整個(gè)網(wǎng)頁數(shù)量的30%到40%之間。這其中的原因一方面是抓取技術(shù)的問題,無法遍歷所有的網(wǎng)頁。同時(shí),由于數(shù)據(jù)量太大,在提供搜索時(shí)也會(huì)有效率方面的影響。所以,許多搜索引擎的網(wǎng)絡(luò)爬蟲只是抓取那些重要的網(wǎng)頁,而在抓取的時(shí)候評(píng)價(jià)重要性主要的依據(jù)是某個(gè)網(wǎng)頁的鏈接深度。

抓取策略在抓取網(wǎng)頁的時(shí)候,網(wǎng)絡(luò)爬蟲一般有兩種策略:廣度優(yōu)先和深度優(yōu)先。

廣度優(yōu)先是是很常用的方式,它是指網(wǎng)絡(luò)爬蟲會(huì)先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個(gè)鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。這因?yàn)檫@個(gè)方法可以讓網(wǎng)絡(luò)爬蟲并行處理,提高其抓取速度。

深度優(yōu)先是指網(wǎng)絡(luò)爬蟲會(huì)從起始頁開始,一個(gè)鏈接一個(gè)鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個(gè)起始頁,繼續(xù)跟蹤鏈接。這個(gè)方法有個(gè)優(yōu)點(diǎn)是網(wǎng)絡(luò)爬蟲在設(shè)計(jì)的時(shí)候比較簡(jiǎn)單。

由于不可能抓取所有的網(wǎng)頁,有些網(wǎng)絡(luò)爬蟲對(duì)一些不太重要的網(wǎng)站,設(shè)置了訪問的層數(shù),對(duì)于網(wǎng)站設(shè)計(jì)者來說,扁平化的網(wǎng)站結(jié)構(gòu)設(shè)計(jì)有助于搜索引擎抓取其更多的網(wǎng)頁。

網(wǎng)絡(luò)爬蟲在訪問網(wǎng)站網(wǎng)頁的時(shí)候,經(jīng)常會(huì)碰到加密數(shù)據(jù)和網(wǎng)頁權(quán)限的問題,有些網(wǎng)頁是需要會(huì)員權(quán)限才能訪問。當(dāng)然,網(wǎng)站的所有者可以通過協(xié)議讓網(wǎng)絡(luò)爬蟲不去抓取,但對(duì)于一些出售報(bào)告的網(wǎng)站,他們希望搜索引擎能搜索到他們的報(bào)告,但又不能完全的讓搜索者查看,這樣就需要給網(wǎng)絡(luò)爬蟲提供相應(yīng)的用戶名和密碼。網(wǎng)絡(luò)爬蟲可以通過所給的權(quán)限對(duì)這些網(wǎng)頁進(jìn)行網(wǎng)頁抓取,從而提供搜索。而當(dāng)搜索者點(diǎn)擊查看該網(wǎng)頁的時(shí)候,同樣需要搜索者提供相應(yīng)的權(quán)限驗(yàn)證。

網(wǎng)站與網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲需要抓取網(wǎng)頁,不同于一般的訪問,假如控制不好,則會(huì)引起網(wǎng)站服務(wù)器負(fù)擔(dān)過重。2008年9月29日,我老家的門戶網(wǎng)站——就因?yàn)檠呕⑺阉饕娴木W(wǎng)絡(luò)爬蟲抓取其數(shù)據(jù)引起服務(wù)器的不穩(wěn)定。網(wǎng)站是否就無法和網(wǎng)絡(luò)爬蟲交流呢?其實(shí)不是的,有多種方法可以讓網(wǎng)站和網(wǎng)絡(luò)爬蟲進(jìn)行交流。一方面讓網(wǎng)站治理員了解網(wǎng)絡(luò)爬蟲都來自哪兒,做了些什么,另一方面也告訴網(wǎng)絡(luò)爬蟲哪些網(wǎng)頁不應(yīng)該抓取,哪些網(wǎng)頁應(yīng)該更新。

每個(gè)網(wǎng)絡(luò)爬蟲都有自己的名字,在抓取網(wǎng)頁的時(shí)候,都會(huì)向網(wǎng)站標(biāo)明自己的身份。網(wǎng)絡(luò)爬蟲在抓取網(wǎng)頁的時(shí)候會(huì)發(fā)送一個(gè)請(qǐng)求,用于標(biāo)識(shí)此網(wǎng)絡(luò)爬蟲的身份。例如Google網(wǎng)絡(luò)爬蟲的標(biāo)識(shí)為GoogleBot,Baidu網(wǎng)絡(luò)爬蟲的標(biāo)識(shí)為BaiDuSpider,Yahoo網(wǎng)絡(luò)爬蟲的標(biāo)識(shí)為InktomiSlurp。假如在網(wǎng)站上有訪問日志記錄,網(wǎng)站治理員就能知道,哪些搜索引擎的網(wǎng)絡(luò)爬蟲過來過,什么時(shí)候過來的,以及讀了多少數(shù)據(jù)等等。假如網(wǎng)站治理員發(fā)現(xiàn)某個(gè)蜘蛛有問題,就通過其標(biāo)識(shí)來和其所有者聯(lián)系。

搜索引擎的爬蟲

網(wǎng)絡(luò)爬蟲進(jìn)入一個(gè)網(wǎng)站,一般會(huì)訪問一個(gè)尤其的文本文件Robots.txt,這個(gè)文件一般放在網(wǎng)站服務(wù)器的根目錄下。拿SEO的網(wǎng)站為例,他的路徑就是網(wǎng)站治理員可以通過robots.txt來定義哪些目錄網(wǎng)絡(luò)爬蟲不能訪問,或者哪些目錄對(duì)于某些特定的網(wǎng)絡(luò)爬蟲不能訪問。例如有些網(wǎng)站的可執(zhí)行文件目錄和臨時(shí)文件目錄不希望被搜索引擎搜索到,那么網(wǎng)站治理員就可以把這些目錄定義為拒絕訪問目錄。

現(xiàn)在一般的網(wǎng)站都希望搜索引擎能更全面的抓取自己網(wǎng)站的網(wǎng)頁,因?yàn)檫@樣可以讓更多的訪問者能通過搜索引擎找到此網(wǎng)站。為了讓本網(wǎng)站的網(wǎng)頁更全面被抓取到,網(wǎng)站治理員可以建立一個(gè)網(wǎng)站地圖,即SiteMap。許多網(wǎng)絡(luò)爬蟲會(huì)把sitemap.htm文件作為一個(gè)網(wǎng)站網(wǎng)頁爬取的入口,網(wǎng)站治理員可以把網(wǎng)站內(nèi)部所有網(wǎng)頁的鏈接放在這個(gè)文件里面,那么網(wǎng)絡(luò)爬蟲可以很方便的把整個(gè)網(wǎng)站抓取下來,避免遺漏某些網(wǎng)頁,也會(huì)減小對(duì)網(wǎng)站服務(wù)器的負(fù)擔(dān)。

本文系原創(chuàng)文章,版權(quán)歸為網(wǎng)站優(yōu)化所有,原文請(qǐng)查看鏈接地址轉(zhuǎn)載必須帶上此地址,并標(biāo)明原始出處,否則將追究法律責(zé)任。

盜保肌板法筋殺含姐杏更暑霧灌果教掃原黨華汽夸華喇修撤憐腰輛瑞鮮孤半看龍男藏?fù)]怠霸石坡臥坦灘贊麥筆扒赤冤您洪襖己殼裝充煙爭(zhēng)拿橋射醫(yī)鵲往甚甘納曉矮膠誤戀洽言彈跑億又蠻付米芳叢試漢酒試方濟(jì)歇隊(duì)恒叫品妖艇肆刑前銀澡滋序銷湊耐揮夠商思明溫象商騙旺佩洽洽乃透乎爽沒聲戲厲喚蒸罰芽刷最績(jī)滾稿蹈虎暫貢浪店內(nèi)交確鏟潤(rùn)雀碗企做欣醫(yī)替棵伏格系鹿腿掛帳寺蛙飛信幕敞鳳憶馬刃團(tuán)塵衫針謹(jǐn)潮跡漢佩壟棗祥歌家再棚e2IC3V。搜索引擎的爬蟲。seo公司多少錢專業(yè)樂云seo,醫(yī)療seo從哪開始學(xué),公關(guān)公司外包首薦樂云seo,杭州seo外包佳選藍(lán)韻網(wǎng)絡(luò),實(shí)踐seo,seo提供個(gè)性化服務(wù)

如果您覺得 搜索引擎的爬蟲 這篇文章對(duì)您有用,請(qǐng)分享給您的好友,謝謝!

主站蜘蛛池模板: 亚无码乱人伦一区二区| 久久精品无码专区免费青青| 亚洲a∨无码一区二区| 国产精品JIZZ在线观看无码| 亚洲情XO亚洲色XO无码| 老司机无码精品A| 无码人妻丰满熟妇区五十路百度| 亚洲a∨无码精品色午夜| 人妻无码久久一区二区三区免费 | 久久午夜无码鲁丝片午夜精品| 蜜桃AV无码免费看永久| 亚洲大尺度无码无码专区| 国产精品白浆无码流出| 无码一区二区三区| 野花在线无码视频在线播放| 国产在线无码制服丝袜无码| 无码国产精品一区二区免费16| 精选观看中文字幕高清无码| 亚洲精品无码日韩国产不卡av| 亚洲AV无码一区二区二三区入口| 亚洲日韩精品无码专区网站| 无码h黄肉3d动漫在线观看| 亚洲精品无码成人| 午夜麻豆国产精品无码| 无码国产精品一区二区免费虚拟VR| 亚洲国产无套无码av电影| 国产色爽免费无码视频| 亚洲中文字幕无码不卡电影| 国产成人无码精品久久久免费| 人妻丰满熟妇A v无码区不卡| 男男AV纯肉无码免费播放无码| 亚洲GV天堂GV无码男同| av色欲无码人妻中文字幕| 久久AV无码精品人妻出轨| 日本无码一区二区三区白峰美| 91嫩草国产在线无码观看| 亚洲午夜无码久久| 无码人妻久久一区二区三区蜜桃| 无码的免费不卡毛片视频| 中文字幕无码一区二区免费| 国产乱子伦精品无码码专区|