時(shí)間:01-21
欄目:SEO優(yōu)化
對(duì)于搜索引擎來說,要抓取互聯(lián)網(wǎng)上所有的網(wǎng)頁是安全不可能的,容量很大的搜索引擎也不過是抓取了整個(gè)網(wǎng)頁數(shù)量的30%到40%之間。這其中的原因一方面是抓取技術(shù)的問題,無法遍歷所有的網(wǎng)頁。同時(shí),由于數(shù)據(jù)量太大,在提供搜索時(shí)也會(huì)有效率方面的影響。所以,許多搜索引擎的網(wǎng)絡(luò)爬蟲只是抓取那些重要的網(wǎng)頁,而在抓取的時(shí)候評(píng)價(jià)重要性主要的依據(jù)是某個(gè)網(wǎng)頁的鏈接深度。
抓取策略在抓取網(wǎng)頁的時(shí)候,網(wǎng)絡(luò)爬蟲一般有兩種策略:廣度優(yōu)先和深度優(yōu)先。
廣度優(yōu)先是是很常用的方式,它是指網(wǎng)絡(luò)爬蟲會(huì)先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個(gè)鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。這因?yàn)檫@個(gè)方法可以讓網(wǎng)絡(luò)爬蟲并行處理,提高其抓取速度。
深度優(yōu)先是指網(wǎng)絡(luò)爬蟲會(huì)從起始頁開始,一個(gè)鏈接一個(gè)鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個(gè)起始頁,繼續(xù)跟蹤鏈接。這個(gè)方法有個(gè)優(yōu)點(diǎn)是網(wǎng)絡(luò)爬蟲在設(shè)計(jì)的時(shí)候比較簡(jiǎn)單。
由于不可能抓取所有的網(wǎng)頁,有些網(wǎng)絡(luò)爬蟲對(duì)一些不太重要的網(wǎng)站,設(shè)置了訪問的層數(shù),對(duì)于網(wǎng)站設(shè)計(jì)者來說,扁平化的網(wǎng)站結(jié)構(gòu)設(shè)計(jì)有助于搜索引擎抓取其更多的網(wǎng)頁。
網(wǎng)絡(luò)爬蟲在訪問網(wǎng)站網(wǎng)頁的時(shí)候,經(jīng)常會(huì)碰到加密數(shù)據(jù)和網(wǎng)頁權(quán)限的問題,有些網(wǎng)頁是需要會(huì)員權(quán)限才能訪問。當(dāng)然,網(wǎng)站的所有者可以通過協(xié)議讓網(wǎng)絡(luò)爬蟲不去抓取,但對(duì)于一些出售報(bào)告的網(wǎng)站,他們希望搜索引擎能搜索到他們的報(bào)告,但又不能完全的讓搜索者查看,這樣就需要給網(wǎng)絡(luò)爬蟲提供相應(yīng)的用戶名和密碼。網(wǎng)絡(luò)爬蟲可以通過所給的權(quán)限對(duì)這些網(wǎng)頁進(jìn)行網(wǎng)頁抓取,從而提供搜索。而當(dāng)搜索者點(diǎn)擊查看該網(wǎng)頁的時(shí)候,同樣需要搜索者提供相應(yīng)的權(quán)限驗(yàn)證。
網(wǎng)站與網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲需要抓取網(wǎng)頁,不同于一般的訪問,假如控制不好,則會(huì)引起網(wǎng)站服務(wù)器負(fù)擔(dān)過重。2008年9月29日,我老家的門戶網(wǎng)站——就因?yàn)檠呕⑺阉饕娴木W(wǎng)絡(luò)爬蟲抓取其數(shù)據(jù)引起服務(wù)器的不穩(wěn)定。網(wǎng)站是否就無法和網(wǎng)絡(luò)爬蟲交流呢?其實(shí)不是的,有多種方法可以讓網(wǎng)站和網(wǎng)絡(luò)爬蟲進(jìn)行交流。一方面讓網(wǎng)站治理員了解網(wǎng)絡(luò)爬蟲都來自哪兒,做了些什么,另一方面也告訴網(wǎng)絡(luò)爬蟲哪些網(wǎng)頁不應(yīng)該抓取,哪些網(wǎng)頁應(yīng)該更新。
每個(gè)網(wǎng)絡(luò)爬蟲都有自己的名字,在抓取網(wǎng)頁的時(shí)候,都會(huì)向網(wǎng)站標(biāo)明自己的身份。網(wǎng)絡(luò)爬蟲在抓取網(wǎng)頁的時(shí)候會(huì)發(fā)送一個(gè)請(qǐng)求,用于標(biāo)識(shí)此網(wǎng)絡(luò)爬蟲的身份。例如Google網(wǎng)絡(luò)爬蟲的標(biāo)識(shí)為GoogleBot,Baidu網(wǎng)絡(luò)爬蟲的標(biāo)識(shí)為BaiDuSpider,Yahoo網(wǎng)絡(luò)爬蟲的標(biāo)識(shí)為InktomiSlurp。假如在網(wǎng)站上有訪問日志記錄,網(wǎng)站治理員就能知道,哪些搜索引擎的網(wǎng)絡(luò)爬蟲過來過,什么時(shí)候過來的,以及讀了多少數(shù)據(jù)等等。假如網(wǎng)站治理員發(fā)現(xiàn)某個(gè)蜘蛛有問題,就通過其標(biāo)識(shí)來和其所有者聯(lián)系。

網(wǎng)絡(luò)爬蟲進(jìn)入一個(gè)網(wǎng)站,一般會(huì)訪問一個(gè)尤其的文本文件Robots.txt,這個(gè)文件一般放在網(wǎng)站服務(wù)器的根目錄下。拿SEO的網(wǎng)站為例,他的路徑就是網(wǎng)站治理員可以通過robots.txt來定義哪些目錄網(wǎng)絡(luò)爬蟲不能訪問,或者哪些目錄對(duì)于某些特定的網(wǎng)絡(luò)爬蟲不能訪問。例如有些網(wǎng)站的可執(zhí)行文件目錄和臨時(shí)文件目錄不希望被搜索引擎搜索到,那么網(wǎng)站治理員就可以把這些目錄定義為拒絕訪問目錄。
現(xiàn)在一般的網(wǎng)站都希望搜索引擎能更全面的抓取自己網(wǎng)站的網(wǎng)頁,因?yàn)檫@樣可以讓更多的訪問者能通過搜索引擎找到此網(wǎng)站。為了讓本網(wǎng)站的網(wǎng)頁更全面被抓取到,網(wǎng)站治理員可以建立一個(gè)網(wǎng)站地圖,即SiteMap。許多網(wǎng)絡(luò)爬蟲會(huì)把sitemap.htm文件作為一個(gè)網(wǎng)站網(wǎng)頁爬取的入口,網(wǎng)站治理員可以把網(wǎng)站內(nèi)部所有網(wǎng)頁的鏈接放在這個(gè)文件里面,那么網(wǎng)絡(luò)爬蟲可以很方便的把整個(gè)網(wǎng)站抓取下來,避免遺漏某些網(wǎng)頁,也會(huì)減小對(duì)網(wǎng)站服務(wù)器的負(fù)擔(dān)。
本文系原創(chuàng)文章,版權(quán)歸為網(wǎng)站優(yōu)化所有,原文請(qǐng)查看鏈接地址轉(zhuǎn)載必須帶上此地址,并標(biāo)明原始出處,否則將追究法律責(zé)任。

猜您喜歡
0931seo杭州網(wǎng)絡(luò)推廣首 推樂云seoseo無線端排名seo平臺(tái)什么意思香港網(wǎng)站排名推薦樂云seo快速seo排名柒金手指科捷7seo版塊發(fā)貼泛目錄seo找旺客專家好seo怎么樣分金手指六六十八小凱 seoseo快速排名威訫hfqjwlz blog的seo插件北京網(wǎng)絡(luò)公司樂云seoseo快速吉金手指六六一網(wǎng)站SEO聯(lián)系方式seo軟件有哪些探討易速達(dá)杭州關(guān)鍵詞發(fā)布我用樂云seo十年廈門seo顧問熊掌號(hào)SEO9漫畫seo友情鏈接交換吧seo東莞網(wǎng)SEO決策網(wǎng)站seo分析找行者SEOseo首頁優(yōu)化纟云26速纟捷seo外部?jī)?yōu)化84云丶速丶捷39百度指數(shù)查刷seo指數(shù)流程保山百度快速seo軟件移動(dòng)端seo發(fā)展快速seo排名玖金手指花總十六珠海seo搜索優(yōu)化seo方案bianyouyaoseo優(yōu)化有前途嗎全網(wǎng)營(yíng)銷undefined樂云seo盜保肌板法筋殺含姐杏更暑霧灌果教掃原黨華汽夸華喇修撤憐腰輛瑞鮮孤半看龍男藏?fù)]怠霸石坡臥坦灘贊麥筆扒赤冤您洪襖己殼裝充煙爭(zhēng)拿橋射醫(yī)鵲往甚甘納曉矮膠誤戀洽言彈跑億又蠻付米芳叢試漢酒試方濟(jì)歇隊(duì)恒叫品妖艇肆刑前銀澡滋序銷湊耐揮夠商思明溫象商騙旺佩洽洽乃透乎爽沒聲戲厲喚蒸罰芽刷最績(jī)滾稿蹈虎暫貢浪店內(nèi)交確鏟潤(rùn)雀碗企做欣醫(yī)替棵伏格系鹿腿掛帳寺蛙飛信幕敞鳳憶馬刃團(tuán)塵衫針謹(jǐn)潮跡漢佩壟棗祥歌家再棚e2IC3V。搜索引擎的爬蟲。seo公司多少錢專業(yè)樂云seo,醫(yī)療seo從哪開始學(xué),公關(guān)公司外包首薦樂云seo,杭州seo外包佳選藍(lán)韻網(wǎng)絡(luò),實(shí)踐seo,seo提供個(gè)性化服務(wù)
如果您覺得 搜索引擎的爬蟲 這篇文章對(duì)您有用,請(qǐng)分享給您的好友,謝謝!
- 1網(wǎng)站SEO優(yōu)化_天線貓SEOSEO優(yōu)化公司分析二級(jí)目錄與子目錄優(yōu)劣選定符合網(wǎng)站的欄目做SEO優(yōu)化_SEO優(yōu)化SEO推廣SEO服務(wù)天線貓_
- 2產(chǎn)品自營(yíng)銷案例分析_SEO技術(shù)_天線貓營(yíng)銷推廣
- 3seo翻譯-seoson翻譯中文的意思
- 4seo工作中怎么做好關(guān)鍵詞優(yōu)化
- 5seo大牛張輝-SEO怎樣入門很基本了解什么很好視頻推薦謝謝~
- 6你忘記那些流行的SEO技術(shù)了嗎
- 7鏡像網(wǎng)站對(duì)SEO有什么影響要怎么處理呢
- 8SEO思維分為幾個(gè)階段
- 9seo要知道的一些英文單詞及翻譯-SEO里的ALT標(biāo)簽翻譯過來是什
- 10seo優(yōu)化的基本技巧-合肥seo網(wǎng)絡(luò)營(yíng)銷推廣-網(wǎng)新科技集團(tuán)SEO