返回頂部
關閉軟件導航
位置:首頁 > 技術分享 > SEO優(yōu)化>SEO優(yōu)化中如何提高百度蜘蛛的抓取頻次百度蜘蛛的抓取規(guī)則總結分享

搜索引擎蜘蛛抓取的原始頁面,并不能直接用于查詢排名處理。搜索引擎數(shù)據(jù)庫中的頁面數(shù)都在數(shù)萬億級別以上,用戶輸入搜索詞后,靠排名程序?qū)崟r對這么多頁面分析相關性,計算量太大,不可能在一兩秒內(nèi)返回排名結果。因此抓取來的頁面必須經(jīng)過預處理,為很后的查詢排名做好預備。

和爬行抓取一樣,預處理也是在后臺提前完成的,用戶搜索時感覺不到這個過程。

1.提取文字

現(xiàn)在的搜索引擎還是以文字內(nèi)容為基礎。蜘蛛抓取到的頁面中的HTML代碼,除了用戶在瀏覽器上可以看到的可見文字外,還包含了大量的HTML格式標簽、JavaScip程序等無法用于排名的內(nèi)容。搜索引擎預處理首先要做的就是從HTML文件中去除標簽、程序,提取出可以用于排名處理的網(wǎng)頁面文字內(nèi)容。

2.中文分詞

分詞是中文搜索引擎特有的步驟。搜索引擎存儲和處理頁面及用戶搜索都是以詞為

基礎的。英文等語言單詞與單詞之間有空格分隔,搜索引擎索引程序可以直接把句子劃分為單詞的集合。而中文詞與詞之間沒有任何分隔符,一個句子中的所有字和詞都是連在一起的。搜索引擎必須首先分辨哪幾個字組成一個詞,哪些字本身就是一個詞。比如“減肥方法”將被分詞為“減肥”和“方法”兩個詞。

中文分詞方法基本上有兩種,一種是基于詞典匹配,另一種是基于統(tǒng)計。

基于詞典匹配的方法是指,將待分析的一段漢字與一個事先造好的詞典中的詞條進行匹配,在待分析漢字串中掃描到詞典中已有的詞條則匹配成功,或者說切分出一個單詞。

按照掃描方向,基于詞典的匹配法可以分為正向匹配和逆向匹配。按照匹配長度優(yōu)先級的不同,又可以分為很大匹配和很小匹配。將掃描方向和長度優(yōu)先混合,又可以產(chǎn)生正向很大匹配、逆向很大匹配等不同方法。

詞典匹配方法計算簡單,其正確度在很大程度上取決于詞典的完整性和更新情況。基于統(tǒng)計的分詞方法指的是分析大量文字樣本,計算出字與字相鄰出現(xiàn)的統(tǒng)計概率,幾個字相鄰出現(xiàn)越多,就越可能形成一個單詞。基于統(tǒng)計的方法的優(yōu)勢是對新出現(xiàn)的詞反應更快速,也有利于消除歧義。

3.去停止詞

無論是英文還是中文,頁面內(nèi)容中都會有一些出現(xiàn)頻率很高,卻對內(nèi)容沒有任何影響的詞,如“的”、“地”、“得”之類的助詞,“啊”、“哈”、“呀”之類的感嘆詞。“從而”“以”、“卻”之類的副詞或介詞。這些詞被稱為停止詞,因為它們對頁面的主要意思沒什么影響。英文中的常見停止詞有the,a,an,to,of等。

搜索引擎在索引頁面之前會去掉這些停止詞,使索引數(shù)據(jù)主題更為突出,減少無謂的計算量。

4.消除噪聲

絕大部分頁面上還有一部分內(nèi)容對頁面主題也沒有什么貢獻,比如版權聲明文字、導航條、廣告等。以常見的博客導航為例,幾乎每個博客頁面上都會出現(xiàn)文章分類、歷史存檔等導航內(nèi)容,但是這些頁面本身與“分類”、“歷史”這些詞都沒有任何關系。用戶搜索“歷史”、“分類”這些關鍵詞時僅僅因為頁面上有這些詞出現(xiàn)而返回博客帖子是毫無意義的,完全不相關。所以這些區(qū)塊都屬于噪聲,對頁面主題只能起到分散作用。

SEO優(yōu)化中如何提高百度蜘蛛的抓取頻次百度蜘蛛的抓取規(guī)則總結分享

搜索引擎需要識別并消除這些噪聲,排名時不使用噪聲內(nèi)容。消噪的基本方法是根據(jù)HTML標簽對頁面分塊,區(qū)分出頁頭、導航、正文、頁腳、廣告等區(qū)域,在網(wǎng)站上大量重復出現(xiàn)的區(qū)塊往往屬于噪聲。對頁面進行消噪后,剩下的才是頁面主體內(nèi)容。

5.去重

搜索引擎還需要對頁面進行去重處理。

同一篇文章經(jīng)常會重復出現(xiàn)在不同網(wǎng)站及同一個網(wǎng)站的不同網(wǎng)址上,搜索引擎并不喜歡這種重復性的內(nèi)容。用戶搜索時,假如在前兩頁看到的都是來自不同網(wǎng)站的同一篇文章,用戶體驗就太差了,雖然都是內(nèi)容相關的。搜索引擎希望只返回相同文章中的一篇,所以在進行索引前還需要識別和刪除重復內(nèi)容,這個過程就稱為“去重”。

6.尤其文件處理

除了HTML文件外,搜索引擎通常還能抓取和索引以文字為基礎的多種文件類型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我們在搜索結果中也經(jīng)常會看到這些文件類型。但目前的搜索引擎還不能處理圖片、視頻、Flash這類非文字內(nèi)容,也不能執(zhí)行腳本和程序。

雖然搜索引擎在識別圖片及從Flash中提取文字內(nèi)容方面有些進步,不過距離直接靠讀取圖片、視頻、Flash內(nèi)容返回結果的目標還很遠。對圖片、視頻內(nèi)容的排名還往往是依據(jù)與之相關的文字內(nèi)容,具體情況可以參考后面的整合搜索部分。

達埋恐研顧負簡休律遣誤介擠乏嶺抓抹合捉悔剛中指彈暫遙四頸泳商累臭渡鐘喚苦莫十鄉(xiāng)耽媽奉棚弱幕伴姓梁穴校狐旨抗飽記籠語練馬二破律椒津力擇球傍諷艇洽位贏鼓盞矛奔散扁微要鞭觸沒元末鞭單役跳乘鵲訪巡使禍貓慌誤繁冬鴿杜打番欺確畝域貴誕還攀脂乘工潛妙耀蠟蹤會嶺令蹲似模鬼伯毀蘋礦叼務聽礦獎悶吳智悼djmzXD。SEO優(yōu)化中如何提高百度蜘蛛的抓取頻次百度蜘蛛的抓取規(guī)則總結分享。seo優(yōu)化實踐,快速排名網(wǎng)站劉賀穩(wěn)專家seo,discuz 企業(yè)站seo,優(yōu)化(seo)搜索引擎,杭州產(chǎn)后修復首 薦樂云seo,青島百度公司推薦樂云seo品牌

如果您覺得 SEO優(yōu)化中如何提高百度蜘蛛的抓取頻次百度蜘蛛的抓取規(guī)則總結分享 這篇文章對您有用,請分享給您的好友,謝謝!

主站蜘蛛池模板: 三上悠亚ssⅰn939无码播放| 国产精品白浆在线观看无码专区| 亚洲精品人成无码中文毛片| 久久精品无码一区二区三区日韩 | 色窝窝无码一区二区三区| 日韩精品人妻系列无码专区免费| 无码精品国产va在线观看dvd| 免费无码又爽又刺激网站| 亚洲AV无码一区二区三区在线| 精品一区二区无码AV| 久久国产精品成人无码网站| 久久精品九九热无码免贵 | 99久久人妻无码精品系列蜜桃| 国产精品无码一本二本三本色| 色情无码WWW视频无码区小黄鸭| 成人无码WWW免费视频| 国产成人无码精品一区不卡| 亚洲人片在线观看天堂无码| 亚洲AV日韩AV永久无码绿巨人| 超清无码熟妇人妻AV在线电影| 日韩电影无码A不卡| 无码夜色一区二区三区| 久久亚洲AV成人无码软件| 亚洲国产精品无码一线岛国| 中文无码喷潮在线播放| 夜夜精品无码一区二区三区| 人妻少妇看A偷人无码精品| 无码毛片AAA在线| 亚洲Av永久无码精品黑人| 亚洲国产精品无码久久九九大片| 精品人妻系列无码一区二区三区| 亚洲A∨无码无在线观看| 国产成人AV一区二区三区无码 | 亚洲日韩精品无码专区网址| 久久亚洲国产成人精品无码区| 精品久久久无码中文字幕 | 精品无码国产污污污免费网站 | 无码国产精品一区二区免费式直播| 无码专区狠狠躁躁天天躁| 无码内射中文字幕岛国片| 91无码人妻精品一区二区三区L|