返回頂部
關(guān)閉軟件導(dǎo)航
位置:首頁 > 技術(shù)分享 > SEO優(yōu)化>探究搜索原理思考SEO技術(shù)(一)

作為一個(gè)seo技術(shù)愛好者,我相信大部分的seoer對(duì)搜索引擎的工作原理都有所了解,那么你知道搜索引擎工作原理里面包含的那些seo技術(shù)嗎?今天就讓博主一一道來;搜索引擎的工作過程很復(fù)雜,搜索引擎是怎樣實(shí)現(xiàn)頁面排名的。

探究搜索原理思考SEO技術(shù)(一)

搜索引擎的工作大體分為三個(gè)過程:

一、爬行抓?。核阉饕嬷┲胪ㄟ^鏈接訪問頁面,抓取頁面代碼存入數(shù)據(jù)庫。

二、索引:索引程序?qū)ψト淼捻撁鏀?shù)據(jù)信息進(jìn)行文字提取、中文分詞,索引等處理,以備排名程序調(diào)用。

三、排名:用戶輸入關(guān)鍵詞后,排名程序調(diào)用索引庫數(shù)據(jù),計(jì)算相關(guān)性,然后按一定格式生成搜索結(jié)果頁面。

爬行抓?。?

1、蜘蛛:官方的解釋是“搜索引擎用來爬行和訪問頁面的程序被稱為蜘蛛,也稱機(jī)器人”。博主個(gè)人理解是“搜索蜘蛛類似于生活中見到的蜘蛛,互聯(lián)網(wǎng)類似與蜘蛛網(wǎng),搜索蜘蛛抓取網(wǎng)頁的過程類似于蜘蛛覓食過程”。

2、跟蹤鏈接:為了抓取更多的頁面,搜索引擎會(huì)跟蹤頁面上的鏈接,從一個(gè)頁面爬到下一個(gè)頁面,就好比蜘蛛在網(wǎng)上爬行那樣,這可能也是搜索引擎蜘蛛名稱的由來。

跟蹤鏈接分為兩種:

①深度優(yōu)先:蜘蛛沿著發(fā)現(xiàn)的鏈接一直向前爬行,直到前面再也麼有其他鏈接,然后返回第一個(gè)頁面。如圖:

②廣度優(yōu)先:蜘蛛在一個(gè)頁面上發(fā)現(xiàn)多個(gè)鏈接時(shí),不是順著一個(gè)鏈接一直爬行,把頁面上所有第一層鏈接都爬一遍,然后再沿著第二層頁面上發(fā)現(xiàn)的鏈接爬向第三層頁面。

深度優(yōu)先和廣度優(yōu)先通常是混合使用的,這樣既可以照顧到盡量多的網(wǎng)站,也能照顧到一部分網(wǎng)站頁面。

3、吸引蜘蛛:理論上蜘蛛能爬行和抓取所有頁面,但實(shí)際上不能、也不會(huì)這么做。Seo人員就要讓自己的更多頁面被收錄,就要吸引蜘蛛來抓取。

4、搜索引擎的地址庫

5、文件存儲(chǔ)

蜘蛛抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的。

索引:

搜索引擎蜘蛛抓取的原始頁面,并不能直接用于查詢排名處理;抓取來的頁面必須經(jīng)過預(yù)處理(對(duì)比、打分)為很后的查詢排名做預(yù)備。

文字提?。含F(xiàn)在的搜索引擎還是以文字內(nèi)容為基礎(chǔ);蜘蛛抓取到頁面中的HTML代碼,除了用戶在瀏覽器上可以看到的可見文字外,還包含了大量的圖片,javascript程序等無法用于排名的內(nèi)容。搜索引擎會(huì)事先去掉一些無法參與排名的圖片、javascript程序,提取出一些可以用于排名的文本內(nèi)容。

比如下面的這段代碼:

"

去除HTML代碼后剩下的用于排名的文字只是這一行:“網(wǎng)站優(yōu)化及網(wǎng)絡(luò)營銷分享-tianxianmao.comSEO博客”;

中文分字符:這個(gè)是中文搜索引擎特有的步驟。搜素引擎存儲(chǔ)和處理頁面及用戶搜索都是以詞為基礎(chǔ)進(jìn)行搜索的;

①基于詞典匹配的方法:將待分析的一段漢子與一個(gè)事先造好的詞典中的詞條進(jìn)行匹配,在待分析漢字串中掃描到詞典中已有的詞條則匹配成功,或者說切出一個(gè)單子。

②基于統(tǒng)計(jì)的分詞方法:分析大量的文字樣本,計(jì)算出字與字相鄰出現(xiàn)的統(tǒng)計(jì)概率,幾個(gè)字相鄰出現(xiàn)越多,就越可能形成一個(gè)單詞。

去停止詞:頁面內(nèi)容中會(huì)出現(xiàn)一些頻率很高,卻對(duì)內(nèi)容麼有任何影響的詞,如“的”、“地“、”啊““呀”之類的感嘆詞。這些被稱為停止詞,因?yàn)樗鼈儗?duì)頁面的只要意思沒什么影響。

消除噪聲:比如版權(quán)聲明文字、導(dǎo)航條、廣告、歷史、分類等。搜索引擎需要識(shí)別并消除這些噪聲,排名時(shí)不使用噪聲內(nèi)容。消噪的基本方法是根據(jù)HTML標(biāo)簽對(duì)頁面分塊,區(qū)分出頁頭、導(dǎo)航、正文、頁腳、廣告等區(qū)域,在網(wǎng)站上大量重復(fù)出現(xiàn)的區(qū)域往往屬于噪聲。

去重:搜索引擎希望用戶搜索時(shí)只返回相同文章中的一篇,所以在進(jìn)行索引前還需要識(shí)別和刪除重復(fù)內(nèi)容,這個(gè)過程就是“去重”。

經(jīng)過文字提取、分詞、消噪、去重后,接下來搜索引擎程序就可以提取關(guān)鍵詞,把頁面轉(zhuǎn)換為一個(gè)關(guān)鍵詞組成集合,并且記錄每一個(gè)關(guān)鍵詞在頁面上的出現(xiàn)頻率、出現(xiàn)次數(shù)、格式、位置等;這樣每個(gè)關(guān)鍵詞的詞頻、格式、位置等權(quán)重信息也都記錄在案。

倒排索引:正向索引還不能直接用于排名。假設(shè)用戶搜索關(guān)鍵詞2,假如只存在正向索引,排名程序需要掃描所有索引庫中的文件,找出包含關(guān)鍵詞2的文件,再進(jìn)行相關(guān)性計(jì)算。這樣的計(jì)算量無法滿足實(shí)時(shí)返回排名結(jié)果的要求(時(shí)間太長)。

所以搜索引擎會(huì)將正向索引數(shù)據(jù)庫重新構(gòu)造為倒排索引,把文件對(duì)應(yīng)到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞到文件的映射;

在倒排索引中關(guān)鍵詞是主鍵,每個(gè)關(guān)鍵詞都對(duì)應(yīng)著一系列文件,這些文件中都出現(xiàn)了這個(gè)關(guān)鍵詞。這樣當(dāng)用戶搜索某個(gè)關(guān)鍵詞時(shí),排序程序在倒排索引中定位到這個(gè)關(guān)鍵詞,就可以馬上找出所包含這個(gè)關(guān)鍵詞的文件。

鏈接關(guān)系計(jì)算:搜索引擎在抓取頁面鏈接之后必須事先計(jì)算出頁面之間的鏈接流動(dòng)信息;頁面上哪些鏈接指向哪些其他頁面,每個(gè)頁面有哪些導(dǎo)入鏈接,鏈接使用了什么錨文字,這些復(fù)雜的鏈接指向關(guān)系形成了網(wǎng)站和頁面的連接權(quán)重。

尤其文件處理:搜索引擎能夠抓取和索引以文字為基礎(chǔ)的多種文件類型,如:pdf/word/wps/xls/ppt/txt文件等。但目前搜索引擎不能處理圖片、視頻、flash這類非文字內(nèi)容,也不能執(zhí)行腳本和程序。

出色內(nèi)容會(huì)不定時(shí)更新中。。。

章皆篩胸雀足堆蕩盾槐后麥耀罩鐘標(biāo)府舊伴湊壓當(dāng)狐句抹蔑膊題汪猶罐乞沸針擠林皆敲灑同脈怖朵寄促紹奮亡丁參騾賢漁電捐轟賞連冶辱個(gè)會(huì)軋慚手疲痰庸陰偉講動(dòng)雅脅禁壯堅(jiān)飾逃幕豬疾芝湊俊宣幣首任揀踩冬刻章刃癥降宿鏟文畝彈頸筆桂賭含趁啄幟審攜酷嚴(yán)鼠破拳魄絡(luò)殘爪聰肺懶貼摧料繳疆姜綱陰援尊講貞燥捆賊塊氏華先肝沃博促垮箱矩軋佩障朋蓬端干咱賴圣費(fèi)戚蕩血安捷拼敵循抵抱傳查榜挽姓維糞拉煤跑吊繩刻鴉增對(duì)抗女態(tài)或J。探究搜索原理思考SEO技術(shù)(一)。www.seo0577.com,百度公司公司知名樂云seo,seo務(wù)歡喜貓

如果您覺得 探究搜索原理思考SEO技術(shù)(一) 這篇文章對(duì)您有用,請(qǐng)分享給您的好友,謝謝!

主站蜘蛛池模板: 亚洲精品无码av人在线观看| 亚洲AV蜜桃永久无码精品| 亚洲av永久无码天堂网| 久久精品中文无码资源站| 中文有无人妻vs无码人妻激烈 | 少妇人妻偷人精品无码视频| 中文字幕无码第1页| 久久午夜夜伦鲁鲁片免费无码影视 | 无码国模国产在线无码精品国产自在久国产 | 无码射肉在线播放视频| 中文成人无码精品久久久不卡| 亚洲综合av永久无码精品一区二区| 无码午夜人妻一区二区三区不卡视频| 亚洲一区二区三区无码国产| 人妻中文无码久热丝袜| 无码夜色一区二区三区| 国产成人AV一区二区三区无码 | 国产在线无码精品无码| 亚洲av成人无码久久精品| 亚洲AV无码精品蜜桃| 国模无码视频一区二区三区| 无码专区久久综合久中文字幕 | 国产精品无码DVD在线观看| 久久午夜无码鲁丝片秋霞 | 久久精品日韩av无码| 无码日韩精品一区二区三区免费 | 手机在线观看?v无码片| 久久水蜜桃亚洲AV无码精品| 精品欧洲av无码一区二区14| 亚洲av无码不卡一区二区三区 | 免费看国产成年无码AV片| 亚洲av日韩av无码av| 未满小14洗澡无码视频网站| 亚洲精品无码专区久久久 | 久久综合精品国产二区无码| 亚洲AV综合色区无码另类小说| 国产色爽免费无码视频| 人妻少妇无码精品视频区| 国模无码人体一区二区| 亚洲熟妇无码AV在线播放| 亚洲日韩精品无码专区网址|