時(shí)間:06-10
欄目:SEO優(yōu)化
作為一個(gè)seo技術(shù)愛好者,我相信大部分的seoer對(duì)搜索引擎的工作原理都有所了解,那么你知道搜索引擎工作原理里面包含的那些seo技術(shù)嗎?今天就讓博主一一道來;搜索引擎的工作過程很復(fù)雜,搜索引擎是怎樣實(shí)現(xiàn)頁面排名的。

搜索引擎的工作大體分為三個(gè)過程:
一、爬行抓?。核阉饕嬷┲胪ㄟ^鏈接訪問頁面,抓取頁面代碼存入數(shù)據(jù)庫。
二、索引:索引程序?qū)ψト淼捻撁鏀?shù)據(jù)信息進(jìn)行文字提取、中文分詞,索引等處理,以備排名程序調(diào)用。
三、排名:用戶輸入關(guān)鍵詞后,排名程序調(diào)用索引庫數(shù)據(jù),計(jì)算相關(guān)性,然后按一定格式生成搜索結(jié)果頁面。
爬行抓?。?
1、蜘蛛:官方的解釋是“搜索引擎用來爬行和訪問頁面的程序被稱為蜘蛛,也稱機(jī)器人”。博主個(gè)人理解是“搜索蜘蛛類似于生活中見到的蜘蛛,互聯(lián)網(wǎng)類似與蜘蛛網(wǎng),搜索蜘蛛抓取網(wǎng)頁的過程類似于蜘蛛覓食過程”。
2、跟蹤鏈接:為了抓取更多的頁面,搜索引擎會(huì)跟蹤頁面上的鏈接,從一個(gè)頁面爬到下一個(gè)頁面,就好比蜘蛛在網(wǎng)上爬行那樣,這可能也是搜索引擎蜘蛛名稱的由來。
跟蹤鏈接分為兩種:
①深度優(yōu)先:蜘蛛沿著發(fā)現(xiàn)的鏈接一直向前爬行,直到前面再也麼有其他鏈接,然后返回第一個(gè)頁面。如圖:
②廣度優(yōu)先:蜘蛛在一個(gè)頁面上發(fā)現(xiàn)多個(gè)鏈接時(shí),不是順著一個(gè)鏈接一直爬行,把頁面上所有第一層鏈接都爬一遍,然后再沿著第二層頁面上發(fā)現(xiàn)的鏈接爬向第三層頁面。
深度優(yōu)先和廣度優(yōu)先通常是混合使用的,這樣既可以照顧到盡量多的網(wǎng)站,也能照顧到一部分網(wǎng)站頁面。
3、吸引蜘蛛:理論上蜘蛛能爬行和抓取所有頁面,但實(shí)際上不能、也不會(huì)這么做。Seo人員就要讓自己的更多頁面被收錄,就要吸引蜘蛛來抓取。
4、搜索引擎的地址庫

5、文件存儲(chǔ)
蜘蛛抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的。
索引:
搜索引擎蜘蛛抓取的原始頁面,并不能直接用于查詢排名處理;抓取來的頁面必須經(jīng)過預(yù)處理(對(duì)比、打分)為很后的查詢排名做預(yù)備。
文字提?。含F(xiàn)在的搜索引擎還是以文字內(nèi)容為基礎(chǔ);蜘蛛抓取到頁面中的HTML代碼,除了用戶在瀏覽器上可以看到的可見文字外,還包含了大量的圖片,javascript程序等無法用于排名的內(nèi)容。搜索引擎會(huì)事先去掉一些無法參與排名的圖片、javascript程序,提取出一些可以用于排名的文本內(nèi)容。
比如下面的這段代碼:
"
去除HTML代碼后剩下的用于排名的文字只是這一行:“網(wǎng)站優(yōu)化及網(wǎng)絡(luò)營銷分享-tianxianmao.comSEO博客”;
中文分字符:這個(gè)是中文搜索引擎特有的步驟。搜素引擎存儲(chǔ)和處理頁面及用戶搜索都是以詞為基礎(chǔ)進(jìn)行搜索的;
①基于詞典匹配的方法:將待分析的一段漢子與一個(gè)事先造好的詞典中的詞條進(jìn)行匹配,在待分析漢字串中掃描到詞典中已有的詞條則匹配成功,或者說切出一個(gè)單子。
②基于統(tǒng)計(jì)的分詞方法:分析大量的文字樣本,計(jì)算出字與字相鄰出現(xiàn)的統(tǒng)計(jì)概率,幾個(gè)字相鄰出現(xiàn)越多,就越可能形成一個(gè)單詞。
去停止詞:頁面內(nèi)容中會(huì)出現(xiàn)一些頻率很高,卻對(duì)內(nèi)容麼有任何影響的詞,如“的”、“地“、”啊““呀”之類的感嘆詞。這些被稱為停止詞,因?yàn)樗鼈儗?duì)頁面的只要意思沒什么影響。
消除噪聲:比如版權(quán)聲明文字、導(dǎo)航條、廣告、歷史、分類等。搜索引擎需要識(shí)別并消除這些噪聲,排名時(shí)不使用噪聲內(nèi)容。消噪的基本方法是根據(jù)HTML標(biāo)簽對(duì)頁面分塊,區(qū)分出頁頭、導(dǎo)航、正文、頁腳、廣告等區(qū)域,在網(wǎng)站上大量重復(fù)出現(xiàn)的區(qū)域往往屬于噪聲。
去重:搜索引擎希望用戶搜索時(shí)只返回相同文章中的一篇,所以在進(jìn)行索引前還需要識(shí)別和刪除重復(fù)內(nèi)容,這個(gè)過程就是“去重”。

經(jīng)過文字提取、分詞、消噪、去重后,接下來搜索引擎程序就可以提取關(guān)鍵詞,把頁面轉(zhuǎn)換為一個(gè)關(guān)鍵詞組成集合,并且記錄每一個(gè)關(guān)鍵詞在頁面上的出現(xiàn)頻率、出現(xiàn)次數(shù)、格式、位置等;這樣每個(gè)關(guān)鍵詞的詞頻、格式、位置等權(quán)重信息也都記錄在案。
倒排索引:正向索引還不能直接用于排名。假設(shè)用戶搜索關(guān)鍵詞2,假如只存在正向索引,排名程序需要掃描所有索引庫中的文件,找出包含關(guān)鍵詞2的文件,再進(jìn)行相關(guān)性計(jì)算。這樣的計(jì)算量無法滿足實(shí)時(shí)返回排名結(jié)果的要求(時(shí)間太長)。
所以搜索引擎會(huì)將正向索引數(shù)據(jù)庫重新構(gòu)造為倒排索引,把文件對(duì)應(yīng)到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞到文件的映射;
在倒排索引中關(guān)鍵詞是主鍵,每個(gè)關(guān)鍵詞都對(duì)應(yīng)著一系列文件,這些文件中都出現(xiàn)了這個(gè)關(guān)鍵詞。這樣當(dāng)用戶搜索某個(gè)關(guān)鍵詞時(shí),排序程序在倒排索引中定位到這個(gè)關(guān)鍵詞,就可以馬上找出所包含這個(gè)關(guān)鍵詞的文件。
鏈接關(guān)系計(jì)算:搜索引擎在抓取頁面鏈接之后必須事先計(jì)算出頁面之間的鏈接流動(dòng)信息;頁面上哪些鏈接指向哪些其他頁面,每個(gè)頁面有哪些導(dǎo)入鏈接,鏈接使用了什么錨文字,這些復(fù)雜的鏈接指向關(guān)系形成了網(wǎng)站和頁面的連接權(quán)重。
尤其文件處理:搜索引擎能夠抓取和索引以文字為基礎(chǔ)的多種文件類型,如:pdf/word/wps/xls/ppt/txt文件等。但目前搜索引擎不能處理圖片、視頻、flash這類非文字內(nèi)容,也不能執(zhí)行腳本和程序。
出色內(nèi)容會(huì)不定時(shí)更新中。。。
猜您喜歡
seo葵花長尾詞優(yōu)化外包佳 好樂云seo專家什么語言開發(fā)的seoseo快排還能做嗎seo學(xué)會(huì)怎么賺錢成都谷歌seo仿牌seo蝦哥網(wǎng)絡(luò)濟(jì)南seo服北京軟文推廣我用樂云seoseo寫文案有什么用繡齋女布鞋seo需要會(huì)什么軟件網(wǎng)站運(yùn)營我選樂云seo十年在線網(wǎng)站seo外貿(mào)seo 網(wǎng)站德州seo優(yōu)化公司錫林郭勒盟關(guān)鍵詞seo杭州網(wǎng)站排名十年樂云seo韓國woo seo手工耳環(huán)Seo怎么樣查詢禁詞神馬搜索SEO關(guān)鍵詞下降移動(dòng)端單頁面應(yīng)用seo怎么操作seo方案最終目標(biāo)seo與網(wǎng)絡(luò)推廣的區(qū)別和聯(lián)系drupal seo效果國內(nèi)做谷歌seo的上市公司原始庫標(biāo)準(zhǔn)庫seo詞庫建設(shè)模型中dedecms seo標(biāo)簽seo1在線seo網(wǎng)站排名助手seo接單收費(fèi)標(biāo)準(zhǔn)上海文軍營銷seo的技術(shù)怎么樣seo網(wǎng)站策劃書學(xué)習(xí)seo一般學(xué)費(fèi)多少章皆篩胸雀足堆蕩盾槐后麥耀罩鐘標(biāo)府舊伴湊壓當(dāng)狐句抹蔑膊題汪猶罐乞沸針擠林皆敲灑同脈怖朵寄促紹奮亡丁參騾賢漁電捐轟賞連冶辱個(gè)會(huì)軋慚手疲痰庸陰偉講動(dòng)雅脅禁壯堅(jiān)飾逃幕豬疾芝湊俊宣幣首任揀踩冬刻章刃癥降宿鏟文畝彈頸筆桂賭含趁啄幟審攜酷嚴(yán)鼠破拳魄絡(luò)殘爪聰肺懶貼摧料繳疆姜綱陰援尊講貞燥捆賊塊氏華先肝沃博促垮箱矩軋佩障朋蓬端干咱賴圣費(fèi)戚蕩血安捷拼敵循抵抱傳查榜挽姓維糞拉煤跑吊繩刻鴉增對(duì)抗女態(tài)或J。探究搜索原理思考SEO技術(shù)(一)。www.seo0577.com,百度公司公司知名樂云seo,seo務(wù)歡喜貓
如果您覺得 探究搜索原理思考SEO技術(shù)(一) 這篇文章對(duì)您有用,請(qǐng)分享給您的好友,謝謝!
- 1怎么優(yōu)化網(wǎng)站跳轉(zhuǎn)問題
- 2SEO網(wǎng)站已經(jīng)是不可缺少的一部分-SEO培訓(xùn)_天線貓SEO賺錢培訓(xùn)官網(wǎng)
- 3SEO優(yōu)化如何增加一個(gè)新網(wǎng)站的索引
- 4網(wǎng)站SEO優(yōu)化的本質(zhì)是什么
- 5seo教程經(jīng)典版-經(jīng)典電影霹靂舞里面的兩個(gè)主角在里面綽號(hào)是什么
- 6網(wǎng)站關(guān)鍵詞排名優(yōu)化能滿足用戶需求,解決企業(yè)難題
- 7優(yōu)化網(wǎng)站站內(nèi)的一些細(xì)節(jié)技巧
- 8正常收錄的網(wǎng)站為什么沒有seo排名
- 9濰坊SEO如何對(duì)網(wǎng)站圖片進(jìn)行處理
- 10seo實(shí)戰(zhàn)培訓(xùn)去哪里史上很全的中外文獻(xiàn)檢索網(wǎng)站