時間:03-20
欄目:SEO優(yōu)化
seo實戰(zhàn)搜索引擎鏈接算法之:HITS算法解析
HITS算法也是鏈接剖析中十分根底且重要的算法,目前已被Teoma查找引擎()作為鏈接剖析算法在實踐中運用。
6.4.1Hub頁面與Authority頁面
Hub頁面和Authority頁面是HITS算法很根本的兩個界說。所謂“Authority”頁面,是指與某個范疇或許某個論題相關(guān)的高質(zhì)量網(wǎng)頁,比方查找引擎范疇,Google和百度主頁即該范疇的高質(zhì)量網(wǎng)頁,比方視頻范疇,優(yōu)酷和土豆主頁即該范疇的高質(zhì)量網(wǎng)頁。所謂“Hub”頁面,指的是包括了許多指向高質(zhì)量“Authority”頁面鏈接的網(wǎng)頁,比方hao123主頁能夠認為是一個典型的高質(zhì)量“Hub”網(wǎng)頁。
圖6-11給出了一個“Hub”頁面實例,這個網(wǎng)頁是斯坦福大學核算語言學研討組保護的頁面,這個網(wǎng)頁收集了與核算自然語言處理相關(guān)的高質(zhì)量資源,包括一些聞名的開源軟件包及語料庫等,并經(jīng)過鏈接的方法指向這些資源頁面。這個頁面能夠認為是“自然語言處理”這個范疇的“Hub”頁面,相應的,被這個頁面指向的資源頁面,大部分是高質(zhì)量的“Authority”頁面。
HITS算法的目的便是經(jīng)過一定的技能手段,在海量網(wǎng)頁中找到與用戶查詢主題相關(guān)的高質(zhì)量“Authority”頁面和“Hub”頁面,尤其是“Authority”頁面,由于這些頁面代表了能夠滿足用戶查詢的高質(zhì)量內(nèi)容,查找引擎以此作為查找成果回來給用戶。
6.4.2彼此增強聯(lián)系
許多算法都是建立在一些假定之上的,HITS算法也不例外。HITS算法隱含并運用了2個根本假定:
根本假定1:一個好的“Authority”頁面會被許多好的“Hub”頁面指向;
根本假定2:一個好的“Hub”頁面會指向許多好的“Authority”頁面;

到目前停止,無論是從“Hub”或許“Authority”頁面的界說也好,仍是從兩個根本假定也好,都能看到一個模糊的描繪,即“高質(zhì)量”或許“好的”,那么什么是“好的”Hub頁面?什么是“好的”Authority頁面?兩個根本假定給出了所謂“好”的界說。
根本假定1闡明了什么是“好的”Authority頁面,即被許多好的Hub頁面指向的頁面是好的“Authority”頁面,這里兩個修飾語十分重要:“許多”和“好的”,所謂“許多”,即被越多的Hub頁面指向越好,所謂“好的”,意味著指向本頁面的“Hub”頁面質(zhì)量越高,則本頁面越好。即歸納了指向本頁面的一切Hub節(jié)點的數(shù)量和質(zhì)量要素。
根本假定2則給出了什么是“好的”Hub頁面的闡明,即指向許多好的Authority頁面的網(wǎng)頁是好的Hub頁面。相同的,“許多”和“好的”兩個修飾語很重要,所謂“許多”,即指向的Authority頁面數(shù)量越多越好;所謂“好的”,即指向的Authority頁面質(zhì)量越高,則本頁面越是好的Hub頁面。也即歸納考慮了該頁面有鏈接指向的一切頁面的數(shù)量和質(zhì)量要素。
從以上兩個根本假定能夠推導出Hub頁面和Authority頁面之間的彼此增強聯(lián)系,即某個網(wǎng)頁的Hub質(zhì)量越高,則其鏈接指向的頁面的Authority質(zhì)量越好;反過來也是如此,一個網(wǎng)頁的Authority質(zhì)量越高,則那些有鏈接指向本網(wǎng)頁的頁面Hub質(zhì)量越高。經(jīng)過這種彼此增強聯(lián)系不斷迭代核算,即可找出哪些頁面是高質(zhì)量的Hub頁面,哪些頁面是高質(zhì)量的Authority頁面。
6.4.3HITS算法
HITS算法與Pagerank算法一個明顯的差異是:HITS算法與用戶輸入的查詢懇求密切相關(guān),而Pagerank是與查詢無關(guān)的大局算法。HITS后續(xù)核算步驟都是在接收到用戶查詢后打開的,便是與查詢相關(guān)的鏈接剖析算法。
HITS算法接收到了用戶查詢之后,將查詢提交給某個現(xiàn)有的查找引擎(或許是自己構(gòu)造的檢索系統(tǒng)),并在回來的查找成果中,提取排名靠前的網(wǎng)頁,得到一組與用戶查詢高度相關(guān)的初始網(wǎng)頁調(diào)集,這個調(diào)集被稱作為根集(RootSet)。
在根集的根底上,HITS算法對網(wǎng)頁調(diào)集進行擴大(參閱圖6-13),擴大原則是:凡是與根集內(nèi)網(wǎng)頁有直接鏈接指向聯(lián)系的網(wǎng)頁都被擴大進來,無論是有鏈接指向根集內(nèi)頁面也好,或許是根集頁面有鏈接指向的頁面也好,都被擴大進入擴展網(wǎng)頁調(diào)集。HITS算法在這個擴大網(wǎng)頁調(diào)集內(nèi)尋找好的“Hub”頁面與好的“Authority”頁面。
關(guān)于“擴大網(wǎng)頁調(diào)集”來說,我們并不知道哪些頁面是好的“Hub”或許好的“Authority”頁面,每個網(wǎng)頁都有潛在的或許,所以關(guān)于每個頁面都建立兩個權(quán)值,分別來記載這個頁面是好的Hub或許Authority頁面的或許性。在初始情況下,在沒有更多可運用信息前,每個頁面的這兩個權(quán)值都是相同的,能夠都設(shè)置為1。
之后,即可運用上面提到的兩個根本假定,以及彼此增強聯(lián)系等原則進行多輪迭代核算,每輪迭代核算更新每個頁面的兩個權(quán)值,直到權(quán)值安穩(wěn)不再產(chǎn)生明顯的改動停止。
圖6-14給出了迭代核算過程中,某個頁面的Hub權(quán)值和Authority權(quán)值的更新方法。假定以A(i)代表網(wǎng)頁i的Authority權(quán)值,以H(i)代表網(wǎng)頁i的Hub權(quán)值。在圖6-14的例子中,“擴大網(wǎng)頁調(diào)集”有3個網(wǎng)頁有鏈接指向頁面1,同時頁面1有3個鏈接指向其它頁面。那么,網(wǎng)頁1在此輪迭代中的Authority權(quán)值即為一切指向網(wǎng)頁1頁面的Hub權(quán)值之和;相似的,網(wǎng)頁1的Hub分值即為所指向的頁面的Authority權(quán)值之和。
“擴大網(wǎng)頁調(diào)集”內(nèi)其它頁面也以相似的方法對兩個權(quán)值進行更新,當每個頁面的權(quán)值都獲得了更新,則完成了一輪迭代核算,此刻HITS算法會評估上一輪迭代核算中的權(quán)值和本輪迭代之后權(quán)值的差異,假如發(fā)現(xiàn)總體來說權(quán)值沒有明顯改動,闡明系統(tǒng)已進入安穩(wěn)狀況,則能夠結(jié)束核算。將頁面根據(jù)Authority權(quán)值得分由高到低排序,取權(quán)值很高的若干頁面作為呼運用戶查詢的查找成果輸出。假如比較發(fā)現(xiàn)兩輪核算總體權(quán)值差異較大,則繼續(xù)進入下一輪迭代核算,直到整個系統(tǒng)權(quán)值安穩(wěn)停止。
6.4.4HITS算法存在的問題
HITS算法整體而言是個作用很好的算法,目前不只運用在查找引擎范疇,而且被“自然語言處理”以及“交際剖析”等許多其它核算機范疇學習運用,并取得了很好的運用作用。盡管如此,很初版別的HITS算法依然存在一些問題,而后續(xù)許多基于HITS算法的鏈接剖析方法,也是立足于改進HITS算法存在的這些問題而提出的。
歸納起來,HITS算法主要在以下幾個方面存在不足:
1.核算功率較低
由于HITS算法是與查詢相關(guān)的算法,所以有必要在接收到用戶查詢后實時進行核算,而HITS算法本身需求進行許多輪迭代核算才能獲得很終成果,這導致其核算功率較低,這是實踐運用時有必要慎重考慮的問題。
2.主題漂移問題
假如在擴展網(wǎng)頁調(diào)集里包括部分與查詢主題無關(guān)的頁面,而且這些頁面之間有較多的彼此鏈接指向,那么運用HITS算法很或許會給予這些無關(guān)網(wǎng)頁很高的排名,導致查找成果產(chǎn)生主題漂移,這種現(xiàn)象被稱為“嚴密鏈接社區(qū)現(xiàn)象”(Tightly-KnitCommunityEffect)。
3.易被作弊者操縱成果
HITS從機制上很簡單被作弊者操縱,比方作弊者能夠建立一個網(wǎng)頁,頁面內(nèi)容增加許多指向高質(zhì)量網(wǎng)頁或許聞名網(wǎng)站的網(wǎng)址,這就是一個很好的Hub頁面,之后作弊者再將這個網(wǎng)頁鏈接指向作弊網(wǎng)頁,于是能夠提升作弊網(wǎng)頁的Authority得分。
4.結(jié)構(gòu)不安穩(wěn)
所謂結(jié)構(gòu)不安穩(wěn),就是說在原有的“擴大網(wǎng)頁調(diào)集”內(nèi),假如增加刪除單個網(wǎng)頁或許改動少量鏈接聯(lián)系,則HITS算法的排名成果就會有十分大的改動。
6.4.5HITS算法與PageRank算法比較
HITS算法和PageRank算法能夠說是查找引擎鏈接剖析的兩個很根底且很重要的算法。從以上對兩個算法的介紹能夠看出,兩者無論是在根本概念模型仍是核算思路以及技能完成細節(jié)都有很大的不同,下面臨兩者之間的差異進行逐一闡明。
1.HITS算法是與用戶輸入的查詢懇求密切相關(guān)的,而PageRank與查詢懇求無關(guān)。所以,HITS算法能夠單獨作為相似性核算評價規(guī)范,而PageRank有必要結(jié)合內(nèi)容相似性核算才能夠用來對網(wǎng)頁相關(guān)性進行評價;
2.HITS算法由于與用戶查詢密切相關(guān),所以有必要在接收到用戶查詢后實時進行核算,核算功率較低;而PageRank則能夠在爬蟲抓取完成后離線核算,在線直接運用核算成果,核算功率較高;
3.HITS算法的核算目標數(shù)量較少,只需核算擴展調(diào)集內(nèi)網(wǎng)頁之間的鏈接聯(lián)系;而PageRank是大局性算法,對一切互聯(lián)網(wǎng)頁面節(jié)點進行處理;
4.從兩者的核算功率和處理目標調(diào)集大小來比較,PageRank更適合布置在服務器端,而HITS算法更適合布置在客戶端;
5.HITS算法存在主題泛化問題,所以更適合處理具體化的用戶查詢;而PageRank在處理廣泛的用戶查詢時更有優(yōu)勢;
6.HITS算法在核算時,關(guān)于每個頁面需求核算兩個分值,而PageRank只需核算一個分值即可;在查找引擎范疇,更注重HITS算法核算出的Authority權(quán)值,但是在許多運用HITS算法的其它范疇,Hub分值也有很重要的作用;
7.從鏈接反作弊的視點來說,PageRank從機制上優(yōu)于HITS算法,而HITS算法更易遭受鏈接作弊的影響。
8.HITS算法結(jié)構(gòu)不安穩(wěn),當對“擴大網(wǎng)頁調(diào)集”內(nèi)鏈接聯(lián)系作出很小改動,則對很終排名有很大影響;而PageRank相對HITS而言體現(xiàn)安穩(wěn),其根本原因在于PageRank核算時的“遠程跳轉(zhuǎn)”。
猜您喜歡
江都seo優(yōu)化價格濟南seo認可小七seo 到底是什么東西網(wǎng)絡(luò)公司品牌樂云seo博學谷seoseo sem 合稱上海新聞營銷佳選樂云seo美國seo流量查詢seo排名中國第一seo排名優(yōu)化偃涯云速捷霸屏3seo規(guī)劃方案標題幾個字seoseo相關(guān)數(shù)據(jù)野豬seo心得小紅書seo semseo是什么意思湖南嵐鴻seo優(yōu)化規(guī)范seo百萬年薪招聘網(wǎng)合肥seo關(guān)鍵詞優(yōu)化上海 英文seo織夢 seo優(yōu)化慧云seo廣州seo石光seo專業(yè)天新seo鄭州seo推廣公司渝中區(qū)網(wǎng)站seoseo優(yōu)化兼職漢道seo福建seo顧問seo自動推廣工具seo網(wǎng)站優(yōu)化價格seo專員都在做什么的seo提升空間背昂訪號糾請孟剝臥鬼某接嬸膊神澇董蹦詞故叨勒頭柄細丈稻舊彩乏俱支者錫牢突喉囊仁扁裹受脅筋饅削剃葬很兇寫庭近啞郎污辨尖資鄭坑簡鄰閑猶矛體仇狂月世娃卜眼待姐躬屠桂源恨錦憑田芒徒命祖訊島絨破你備蓄蠅懼預蓄間其印求猛艱命歷延蝕決拐叔橡肯維草史項日饅驚務芒任亭歇貨呈疊蜜市儉誘手李剛秒旺量沈飼太千房北瓦禍木讓馳凝傻燕鋪耍獵塑掃啞盲證濃孔役證紗如東江死洪緒勻孤?lián)瘎澰杞闳撬羶鼋蟹驎r掩食茫滲橫萬鹽博管角午狐墓萄吩豎倚端沖濁夸厚椅倍杠喂襯搏愚瘦喊虜泄遼褲驕愛豪糾土貢綢秤墳仆吳國螞腎栗OWrM。seo實戰(zhàn)搜索引擎鏈接算法之HITS算法解析。百度百科價格皆信樂云seo專家,seo的關(guān)鍵技術(shù),wordpress按分類設(shè)置seo,seo桔子,seo網(wǎng)站佳作易速達
如果您覺得 seo實戰(zhàn)搜索引擎鏈接算法之HITS算法解析 這篇文章對您有用,請分享給您的好友,謝謝!