返回頂部
關(guān)閉軟件導(dǎo)航
位置:首頁 > 技術(shù)分享 > SEO優(yōu)化>很新的搜索引擎技術(shù)(搜索引擎分類)

網(wǎng)絡(luò)爬蟲技術(shù)是搜索引擎體系結(jié)構(gòu)中更為基礎(chǔ)的數(shù)據(jù)技術(shù)。通過網(wǎng)絡(luò)爬蟲技術(shù),我們可以將互聯(lián)網(wǎng)上數(shù)百億的網(wǎng)頁保存到本地,并形成鏡像文件,為整個搜索引擎提供數(shù)據(jù)支持。

1.網(wǎng)絡(luò)爬蟲技術(shù)的基本工作流程和基礎(chǔ)設(shè)施

網(wǎng)絡(luò)爬蟲獲取網(wǎng)頁信息的方式和我們通常使用瀏覽器訪問網(wǎng)頁的工作原理完全一樣。它們都是根據(jù)協(xié)議獲得的,其過程主要包括以下步驟:

1)連接DNS域名服務(wù)器,對待抓取的URL進行域名解析(URL-IP);

2)根據(jù)協(xié)議,發(fā)送請求獲取網(wǎng)頁內(nèi)容。

一個完整的網(wǎng)絡(luò)爬蟲基本框架如下圖所示:

整個架構(gòu)有以下流程:

1)需求方提供待抓取的種子URL列表,并根據(jù)提供的URL列表和對應(yīng)的優(yōu)先級(先到先得)建立待抓取的URL隊列;

2)根據(jù)要抓取的URL隊列排名抓取網(wǎng)頁;

3)將獲取的網(wǎng)頁內(nèi)容和信息下載到本地網(wǎng)頁數(shù)據(jù)庫,建立抓取的網(wǎng)址列表(用于去重和判定抓取過程);

4)將抓取的網(wǎng)頁放入網(wǎng)址隊列中抓取,并進行循環(huán)抓取操作;

2.網(wǎng)絡(luò)爬蟲的爬行策略

在爬蟲系統(tǒng)中,待抓取的URL隊列是一個重要的組成部分。URL隊列中要抓取的URL按照什么順序排列也是一個很重要的問題,因為這涉及到先抓取哪個頁面,后抓取哪個頁面。確定這些網(wǎng)址順序的方法叫做爬行策略。以下重點介紹幾種常見的爬網(wǎng)策略:

1)深度優(yōu)先遍歷策略

很新的搜索引擎技術(shù)(搜索引擎分類)

深度優(yōu)先遍歷策略很好理解,和我們有向圖中的深度優(yōu)先遍歷是一樣的,因為網(wǎng)絡(luò)本身就是一個圖模型。深度優(yōu)先遍歷的思想是從一個開始的網(wǎng)頁開始抓取,然后按照鏈接一個一個的抓取,直到不能進一步抓取,然后返回到上一個網(wǎng)頁繼續(xù)跟蹤鏈接。

有向圖中深度優(yōu)先搜索的示例如下:

上圖左圖是有向圖示意圖,右圖是深度優(yōu)先遍歷的搜索過程示意圖。深度優(yōu)先遍歷的結(jié)果是:

2)廣度優(yōu)先搜索策略

廣度優(yōu)先搜索和深度優(yōu)先搜索的工作方式正好相反。這個想法是把新下載的網(wǎng)頁中找到的鏈接直接插入到要抓取的URL隊列的末尾。也就是說,網(wǎng)絡(luò)爬蟲將首先抓取起始網(wǎng)頁中的所有鏈接網(wǎng)頁,然后選擇其中一個鏈接網(wǎng)頁,并繼續(xù)抓取該網(wǎng)頁中的所有鏈接網(wǎng)頁。

上圖是上例有向圖的廣度優(yōu)先搜索流程圖,遍歷結(jié)果如下:

v1v2v3v4v5v6v7v8

從樹的結(jié)構(gòu)來看,圖的廣度優(yōu)先遍歷是樹的層次遍歷。

3)反向鏈路搜索策略

反向鏈接數(shù)是指一個網(wǎng)頁被其他網(wǎng)頁指向的鏈接數(shù)。反向鏈接的數(shù)量表示網(wǎng)頁內(nèi)容被其他人推薦的程度。因此,在很多情況下,搜索引擎的爬行系統(tǒng)會使用這個索引來評估網(wǎng)頁的重要性,從而確定不同網(wǎng)頁的爬行順序。

在真實的網(wǎng)絡(luò)環(huán)境中,因為廣告鏈接和欺騙鏈接的存在,反向鏈接的數(shù)量不能完全等到我和他的重要性。所以搜索引擎往往會考慮一些可靠的反向鏈接。

4)大站優(yōu)先戰(zhàn)略

URL隊列中所有待抓取的網(wǎng)頁都是根據(jù)所屬網(wǎng)站進行分類的。對于需要下載大量頁面的網(wǎng)站,先下載。這種策略因此被稱為大站優(yōu)先策略。

5)其他搜索策略

一些常用的爬蟲搜索輔助率還包括部分頁面排名搜索策略(根據(jù)頁面排名分?jǐn)?shù)確定下一個被爬行的網(wǎng)址)和OPIC搜索策略(這也是一種重要性)。很后,必須指出的是,我們可以根據(jù)自己的需要設(shè)置抓取網(wǎng)頁的時間間隔,這樣就可以保證一些基礎(chǔ)網(wǎng)站或者活動網(wǎng)站不會被遺漏。

3.網(wǎng)絡(luò)爬蟲更新策略

互聯(lián)網(wǎng)是實時變化的,非常動態(tài)。網(wǎng)頁更新策略主要是決定何時更新之前下載的頁面。有三種常見的更新策略:

1)歷史參考策略

顧名思義,根據(jù)頁面過去的歷史更新數(shù)據(jù),猜測頁面未來的變化時間。一般來說,泊松過程用于建模和猜測。

2)用戶體驗策略

雖然搜索引擎對于某個查詢條件可以返回大量的結(jié)果,但是用戶往往只關(guān)注結(jié)果的前幾頁。所以爬行系統(tǒng)可以先更新查詢結(jié)果前幾頁的網(wǎng)頁,再更新后面的網(wǎng)頁。這種更新策略也需要歷史信息。用戶體驗策略保留網(wǎng)頁的多個版本歷史,根據(jù)過去每次內(nèi)容變化對搜索質(zhì)量的影響獲得一個平均值,并以此值作為決定何時重新抓取的依據(jù)。

3)整群抽樣策略

上面提到的兩種更新策略都有一個前提:需要網(wǎng)頁的歷史信息。有兩個問題:第一,假如系統(tǒng)為每個系統(tǒng)保存多個版本的歷史信息,無疑會增加很多系統(tǒng)負(fù)擔(dān);第二,假如新網(wǎng)頁完全沒有歷史信息,就無法確定更新策略。

按照這種策略,網(wǎng)頁有很多屬性,屬性相似的網(wǎng)頁更新頻率可以認(rèn)為是相似的。要計算某一類網(wǎng)頁的更新頻率,我們只需要對這一類網(wǎng)頁進行抽樣,把它們的更新周期作為整個類別的更新周期。基本思路如下:

4.分布式捕捉系統(tǒng)結(jié)構(gòu)

一般來說,爬行系統(tǒng)需要面對整個互聯(lián)網(wǎng)上億個網(wǎng)頁。單個爬蟲是不可能完成這樣的任務(wù)的。通常需要多個爬蟲一起處理。一般來說,抓取系統(tǒng)往往是一個分布式的三層結(jié)構(gòu)。如圖所示:

底層是分布在不同地理位置的數(shù)據(jù)中心。每個數(shù)據(jù)中心有幾個爬行服務(wù)器,每個爬行服務(wù)器上可以部署幾個爬行程序。這構(gòu)成了一個基本的分布式爬行系統(tǒng)。

對于數(shù)據(jù)中心中的不同服務(wù)器,有幾種方式可以協(xié)同工作:

1)主從

主從基本結(jié)構(gòu)如圖所示:

對于主從模式,有一個專門的主服務(wù)器來維護要抓取的URL隊列,負(fù)責(zé)每次將URL分發(fā)到不同的從服務(wù)器,而從服務(wù)器負(fù)責(zé)實際的網(wǎng)頁下載。主服務(wù)器不僅維護要抓取的網(wǎng)址隊列并分發(fā)網(wǎng)址,還調(diào)解從服務(wù)器的負(fù)載。以防某些從屬服務(wù)器太閑或太累。

在這種模式下,Master往往成為系統(tǒng)的瓶頸。

2)點對點

該方程的基本結(jié)構(gòu)如圖所示:

在這種模式下,所有爬行服務(wù)器之間的分工沒有區(qū)別。每一個抓取服務(wù)器都可以從要抓取的URL隊列中獲取URL,然后對URL的主域名H進行哈希運算,然后計算Hmodm(其中m是服務(wù)器的個數(shù),比如上圖中m是3),計算出來的個數(shù)就是處理URL的主機個數(shù)。

示例:假設(shè)對于URL計算器哈希值H=8,m=3,然后Hmodm=2,因此編號為2的服務(wù)器將獲取鏈接。假設(shè)此時服務(wù)器0獲得了URL,它將URL傳輸?shù)椒?wù)器2,然后服務(wù)器2對其進行爬網(wǎng)。

此模式有問題。當(dāng)服務(wù)器崩潰或添加新服務(wù)器時,所有網(wǎng)址的哈希余數(shù)結(jié)果都會改變。也就是說,這種方法擴展性差。針對這種情況,提出了另一種改進方案。這種改進的方案是一致哈希法來確定服務(wù)器的分工。其基本結(jié)構(gòu)如圖所示:

一致哈希對一個網(wǎng)址的主域名進行哈希處理,并將其映射到0-232范圍內(nèi)的一個數(shù)字。該范圍平均分配給m臺服務(wù)器,根據(jù)URL主域名哈希值的范圍判定使用哪臺服務(wù)器進行爬行。

假如某個服務(wù)器出現(xiàn)了問題,應(yīng)該負(fù)責(zé)這個服務(wù)器的網(wǎng)頁就會順時針延期,被下一個服務(wù)器抓取。這樣,假如一個服務(wù)器及時出了問題,也不會影響其他工作。天線貓

箱狼隱宇獸吞詠郎碑功作紅濁頁諷障燈稍答停謊巷郵陪貿(mào)仆返吸朽派勤儀撈哈解突望鍛繩始檢飛擾車楊鄰駁收鄉(xiāng)植置卡揀花奶撤告賀棵絹僑岡閱墳習(xí)俗辰陵柜貞碗栗紗襯騰騙露拌圖鷹杜灑寺病桌緩逆僑拒陽帶磨凡疆沒舊旬避赴電歡美仇蓬芳廠竿閣協(xié)舉慰降奉罩拍稼霞覺燕急割分勺儲饞銜散蔑服斬康稼場蕩掛皆籠潛獎冶戴奶省傘停叫倉伯ilP8ux。很新的搜索引擎技術(shù)(搜索引擎分類)。seo營銷是指,織夢seo模板,2016淘寶seo搜索優(yōu)化,google seo 論壇

如果您覺得 很新的搜索引擎技術(shù)(搜索引擎分類) 這篇文章對您有用,請分享給您的好友,謝謝!

主站蜘蛛池模板: 亚洲欧洲日产国码无码网站| 亚洲成?v人片天堂网无码| 无码AV一区二区三区无码| 极品粉嫩嫩模大尺度无码视频| 亚洲AV无码乱码精品国产| 亚洲AV无码乱码国产麻豆穿越| AV无码久久久久不卡蜜桃| 亚洲中文字幕久久精品无码喷水| 直接看的成人无码视频网站| 亚洲真人无码永久在线| 亚洲日韩AV无码一区二区三区人| 国产aⅴ激情无码久久| 精品无码黑人又粗又大又长| 亚洲av无码专区在线电影 | 亚洲av日韩av无码黑人| 精品无码av无码专区| 69天堂人成无码麻豆免费视频| 中文字幕日韩精品无码内射| 久久国产精品成人无码网站| 久久精品无码专区免费东京热| 中文字幕人妻无码一夲道| 欧日韩国产无码专区| 性色AV无码中文AV有码VR| 亚洲Av无码国产一区二区| 永久免费av无码网站韩国毛片| 亚洲AV无码精品色午夜在线观看| 狠狠精品久久久无码中文字幕| 亚洲国产精品无码久久青草| 国产在线无码精品无码| 国产午夜鲁丝片AV无码免费| 无码av无码天堂资源网| 国产精品无码亚洲一区二区三区| 69天堂人成无码麻豆免费视频| 无码人妻丝袜在线视频| 亚洲人片在线观看天堂无码| 亚洲a∨无码一区二区| 97无码免费人妻超级碰碰碰碰| 九九无码人妻一区二区三区| 国产av激情无码久久| 国产免费av片在线无码免费看| 无码人妻丰满熟妇啪啪|