返回頂部
關(guān)閉軟件導(dǎo)航
位置:首頁 > 技術(shù)分享 > SEO優(yōu)化>搜索引擎的工作原理是什么

搜索引擎工作原理非常復(fù)雜,我們簡(jiǎn)單介紹搜索引擎是怎樣實(shí)現(xiàn)網(wǎng)頁排名的。這里介紹的相對(duì)于真正的搜索引擎技術(shù)來說只是皮毛,不過對(duì)SEO人員已經(jīng)足夠用了。

搜索引擎的工作原理大體上可以分成三個(gè)階段:

1)爬行和抓取–搜索引擎蜘蛛通過跟蹤鏈接訪問網(wǎng)頁,獲得頁面HTML代碼存入數(shù)據(jù)庫(kù)。

2)預(yù)處理-索引程序?qū)ψト淼捻撁鏀?shù)據(jù)進(jìn)行文字提取、中文分詞、索引等處理,以備排名程序調(diào)用。

搜索引擎的工作原理是什么

3)排名-用戶輸入關(guān)鍵詞后,排名程序調(diào)用索引庫(kù)數(shù)據(jù),計(jì)算相關(guān)性,然后按一定格式生成搜索結(jié)果頁面。

爬行和抓取

爬行和抓取是搜索引擎工作的第一步,完成數(shù)據(jù)收集的任務(wù)。

蜘蛛

搜索引擎用來爬行和訪問頁面的程序被稱為蜘蛛(spider),也稱為機(jī)器人(bot)。搜索引擎蜘蛛訪問網(wǎng)站頁面時(shí)類似于普通用戶使用的瀏覽器。蜘蛛程序發(fā)出頁面訪問請(qǐng)求后,服務(wù)器返回HTML代碼,蜘蛛程序把收到的代碼存入原始頁面數(shù)據(jù)庫(kù)。搜索引擎為了提高爬行和抓取速度,都使用多個(gè)蜘蛛并發(fā)分布爬行。蜘蛛訪問任何一個(gè)網(wǎng)站時(shí),都會(huì)先訪問網(wǎng)站根目錄下的robots.txt文件。假如robots.txt文件禁止搜索引擎抓取某些文件或目錄,蜘蛛將遵守協(xié)議,不抓取被禁止的網(wǎng)址。

跟蹤鏈接

為了抓取網(wǎng)上盡量多的頁面,搜索引擎蜘蛛會(huì)跟蹤頁面上的鏈接,從一個(gè)頁面爬到下一個(gè)頁面,就似乎蜘蛛在蜘蛛網(wǎng)上爬行那樣,這也就是搜索引擎蜘蛛這個(gè)名稱的由來。整個(gè)互聯(lián)網(wǎng)是由相互鏈接的網(wǎng)站及頁面組成的。從理論上說,蜘蛛從任何一個(gè)頁面出發(fā),順著鏈接都可以爬行到網(wǎng)上的所有頁面。當(dāng)然,由于網(wǎng)站及頁面鏈接結(jié)構(gòu)異常復(fù)雜,蜘蛛需要采取一定的爬行策略才能遍歷網(wǎng)上所有頁面。

很簡(jiǎn)單的爬行遍歷策略分為兩種,一是深度優(yōu)先,二是廣度優(yōu)先。

所謂深度優(yōu)先指的是蜘蛛沿著發(fā)現(xiàn)的鏈接一直向前爬行,直到前面再也沒有其他鏈接,然后返回到第一個(gè)頁面,沿著另一個(gè)鏈接再一直往前爬行。

廣度優(yōu)先是指蜘蛛在一個(gè)頁面上發(fā)現(xiàn)多個(gè)鏈接時(shí),不是順著一個(gè)鏈接一直向前,而是把頁面上所有第一層鏈接都爬一遍,然后再沿著第二層頁面上發(fā)現(xiàn)的鏈接爬向第三層頁面。從理論上說,無論是深度優(yōu)先還是廣度優(yōu)先,只要給蜘蛛足夠的時(shí)間,都能爬完整個(gè)互聯(lián)網(wǎng)。在實(shí)際工作中,蜘蛛的帶寬資源、時(shí)間都不是無限的,也不可能爬完所有頁面。實(shí)際上很大的搜索引擎也只是爬行和收錄了互聯(lián)網(wǎng)的一小部分。

深度優(yōu)先和廣度優(yōu)先通常是混合使用的,這樣既可以照顧到盡量多的網(wǎng)站(廣度優(yōu)先),也能照顧到一部分網(wǎng)站的內(nèi)頁(深度優(yōu)先)。

預(yù)處理

提取文字

現(xiàn)在的搜索引擎還是以文字內(nèi)容為基礎(chǔ)。蜘蛛抓取到的頁面中的HTML代碼,除了用戶在瀏覽器上可以看到的可見文字外,還包含了大量的HTML格式標(biāo)簽、Javascript程序等無法用于排名的內(nèi)容。搜索引擎預(yù)處理首先要做的就是從HTML文件中去除標(biāo)簽、程序,提取出可以用于排名處理的網(wǎng)頁面文字內(nèi)容。除了可見文字,搜索引擎也會(huì)提取出一些尤其的包含文字信息的代碼,如Meta標(biāo)簽中的文字,圖片替代文字,F(xiàn)lash文件的替代文字,鏈接錨文字等。

中文分詞

分詞是中文搜索引擎特有的步驟。搜索引擎存儲(chǔ)和處理頁面,以及用戶搜索都是以詞為基礎(chǔ)。英文等語言單詞與單詞之間有空格分隔,搜索引擎索引程序可以直接把句子劃分為單詞的集合。而中文詞與詞之間沒有任何分隔符,一個(gè)句子中的所有字和詞都是連在一起的。搜索引擎必須首先分辨哪幾個(gè)字組成一個(gè)詞,哪些字本身就是一個(gè)詞。比如“減肥方法”將被分詞為“減肥”和“方法”兩個(gè)詞。

中文分詞方法基本上有兩種,一是基于詞典匹配,另一個(gè)是基于統(tǒng)計(jì)。

基于詞典匹配的方法是指,將待分析的一段漢字與一個(gè)事先造好的詞典中的詞條進(jìn)行匹配,在待分析漢字串中掃描到詞典中已有的詞條則匹配成功,或者說切分出一個(gè)單詞。按照掃描方向,基于詞典的匹配法可以分為正向匹配和逆向匹配。按照匹配長(zhǎng)度優(yōu)先級(jí)的不同,又可以分為很大匹配和很小匹配。將掃描方向和長(zhǎng)度優(yōu)先混合,又可以產(chǎn)生正向很大匹配、逆向很大匹配等不同方法。詞典匹配方法計(jì)算簡(jiǎn)單,其正確度很大程度上取決于詞典的完整性和更新情況。

基于統(tǒng)計(jì)的分詞方法指的是分析大量文字樣本,計(jì)算出字與字相鄰出現(xiàn)的統(tǒng)計(jì)概率,幾個(gè)字相鄰出現(xiàn)越多,就越可能形成一個(gè)單詞。基于統(tǒng)計(jì)的方法優(yōu)勢(shì)是對(duì)新出現(xiàn)的詞反應(yīng)更快速,也有利于消除歧義。基于詞典匹配和統(tǒng)計(jì)的兩種分詞方法各有優(yōu)劣,實(shí)際使用中的分詞系統(tǒng)都是混合使用兩種方法,達(dá)到快速高效,又能識(shí)別生詞、新詞,消除歧義。

搜索引擎對(duì)頁面的分詞取決于詞庫(kù)的規(guī)模、正確性和分詞算法的好壞,而不是取決于頁面本身如何,所以SEO人員對(duì)分詞所能做的很少。優(yōu)選能做的是在頁面上用某種形式提示搜索引擎,某幾個(gè)字應(yīng)該被當(dāng)作一個(gè)詞處理,尤其是可能產(chǎn)生歧義的時(shí)候,比如在頁面標(biāo)題、h1標(biāo)簽以及黑體中出現(xiàn)關(guān)鍵詞。假如頁面是關(guān)于“和服”的內(nèi)容,那么可以把“和服”這兩個(gè)字特意標(biāo)為黑體。假如頁面是關(guān)于“化妝和服裝”,可以把“服裝”兩個(gè)字標(biāo)為黑體。這樣,搜索引擎對(duì)頁面進(jìn)行分析時(shí)就知道標(biāo)為黑體的應(yīng)該是一個(gè)詞。

去停止詞

無論英文中文,頁面內(nèi)容中都會(huì)有一些出現(xiàn)頻率很高,卻對(duì)內(nèi)容沒有任何影響的詞,如“的”,“地”,“得”之類的助詞,“啊”,“哈”,“呀”之類的感嘆詞,“從而”,“以”,“卻”之類的介詞。這些詞被稱為停止詞,因?yàn)樗鼈儗?duì)頁面主要意思沒什么影響。英文中的常見停止詞如the,a,an,to,of等。搜索引擎在索引頁面之前會(huì)去掉這些停止詞,使索引數(shù)據(jù)主題更為突出,減少無謂的計(jì)算量。

消除噪聲

絕大部分頁面上還有一部分內(nèi)容對(duì)頁面主題也沒有什么貢獻(xiàn),比如版權(quán)聲明文字、導(dǎo)航條、廣告等。以常見的博客導(dǎo)航為例,幾乎每個(gè)博客頁面上都會(huì)出現(xiàn)文章分類、歷史存檔等導(dǎo)航內(nèi)容,但是這些頁面本身與“分類”、“歷史”這些詞都沒有任何關(guān)系。用戶搜索“歷史”,“分類”這些關(guān)鍵詞時(shí)僅僅因?yàn)轫撁嫔嫌羞@些詞出現(xiàn)而返回博客帖子是毫無意義的,完全不相關(guān)。

所以這些區(qū)塊都屬于噪聲,對(duì)頁面主題只能起到分散作用。搜索引擎需要識(shí)別并消除這些噪聲,排名時(shí)不使用噪聲內(nèi)容。消噪的基本方法是根據(jù)HTML標(biāo)簽對(duì)頁面分塊,區(qū)分出頁頭、導(dǎo)航、正文、頁腳、廣告等區(qū)域,在網(wǎng)站上大量重復(fù)出現(xiàn)的區(qū)塊往往屬于噪聲。對(duì)頁面進(jìn)行消噪后,剩下的才是頁面主體內(nèi)容。

去重

搜索引擎還需要對(duì)頁面進(jìn)行去重處理。同一篇文章經(jīng)常會(huì)重復(fù)出現(xiàn)在不同網(wǎng)站以及同一個(gè)網(wǎng)站的不同網(wǎng)址上,搜索引擎并不喜歡這種重復(fù)性的內(nèi)容。用戶搜索時(shí),假如在前兩頁看到的都是來自不同網(wǎng)站的同一篇文章,用戶體驗(yàn)就太差了,雖然都是內(nèi)容相關(guān)的。搜索引擎希望只返回相同文章中的一篇,所以在進(jìn)行索引前還需要識(shí)別和刪除重復(fù)內(nèi)容,這個(gè)原理就稱為去重。去重的基本方法是對(duì)頁面特征關(guān)鍵詞計(jì)算指紋,也就是說從頁面主體內(nèi)容中選取很有代表性的一部分關(guān)鍵詞(經(jīng)常是出現(xiàn)頻率很高的關(guān)鍵詞),然后計(jì)算這些關(guān)鍵詞的數(shù)字指紋。

這里的關(guān)鍵詞選取是在分詞、去停止詞、消噪之后。實(shí)驗(yàn)表明,通常選取10個(gè)特征關(guān)鍵詞就可以達(dá)到比較高的計(jì)算正確性,再選取更多詞對(duì)去重正確性提高的貢獻(xiàn)也就不大了。了解了搜索引擎的去重算法,SEO人員就應(yīng)該知道簡(jiǎn)單地增加“的,地,得”、調(diào)換段落順序這種所謂偽原創(chuàng),并不能逃過搜索引擎的去重算法,因?yàn)檫@樣的操作無法改變文章的特征關(guān)鍵詞。而且搜索引擎的去重算法很可能不止于頁面級(jí)別,而是進(jìn)行到段落級(jí)別,混合不同文章、交叉調(diào)換段落順序也不能使轉(zhuǎn)載和抄襲變成原創(chuàng)。

正向索引也可以簡(jiǎn)稱為索引。

經(jīng)過文字提取、分詞、消噪、去重后,搜索引擎得到的就是獨(dú)特的、能反映頁面主體內(nèi)容的、以詞為單位的內(nèi)容。接下來搜索引擎索引程序就可以提取關(guān)鍵詞,按照分詞程序劃分好的詞,把頁面轉(zhuǎn)換為一個(gè)關(guān)鍵詞組成的集合,同時(shí)記錄每一個(gè)關(guān)鍵詞在頁面上的出現(xiàn)頻率、出現(xiàn)次數(shù)、格式(如出現(xiàn)在標(biāo)題標(biāo)簽、黑體、H標(biāo)簽、錨文字等)、位置(如頁面第一段文字等)。這樣,每一個(gè)頁面都可以記錄為一串關(guān)鍵詞集合,其中每個(gè)關(guān)鍵詞的詞頻、格式、位置等權(quán)重信息也都記錄在案。

倒排索引

正向索引還不能直接用于排名。假設(shè)用戶搜索關(guān)鍵詞2,假如只存在正向索引的話,排名程序需要掃描所有索引庫(kù)中的文件,找出包含關(guān)鍵詞2的文件,再進(jìn)行相關(guān)性計(jì)算。這樣的計(jì)算量無法滿足實(shí)時(shí)返回排名結(jié)果的要求。所以搜索引擎會(huì)將正向索引數(shù)據(jù)庫(kù)重新構(gòu)造為倒排索引,把文件對(duì)應(yīng)到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞到文件的映射。在倒排索引中關(guān)鍵詞是主鍵,每個(gè)關(guān)鍵詞都對(duì)應(yīng)著一系列文件,這些文件中都出現(xiàn)了這個(gè)關(guān)鍵詞。這樣當(dāng)用戶搜索某個(gè)關(guān)鍵詞時(shí),排序程序在倒排索引中定位到這個(gè)關(guān)鍵詞,就可以馬上找出所有包含這個(gè)關(guān)鍵詞的文件。

鏈接關(guān)系計(jì)算

鏈接關(guān)系計(jì)算也是預(yù)處理中很重要的一部分。現(xiàn)在所有的主流搜索引擎排名因素中都包含網(wǎng)頁之間的鏈接流動(dòng)信息。搜索引擎在抓取頁面內(nèi)容后,必須事前計(jì)算出頁面上有哪些鏈接指向哪些其他頁面?每個(gè)頁面有哪些導(dǎo)入鏈接?鏈接使用了什么錨文字?這些復(fù)雜的鏈接指向關(guān)系形成了網(wǎng)站和頁面的鏈接權(quán)重。GooglePR值就是這種鏈接關(guān)系的很主要體現(xiàn)之一。其他搜索引擎也都進(jìn)行類似計(jì)算,雖然他們并不稱之為PR。

尤其文件處理

除了HTML文件外,搜索引擎通常還能抓取和索引以文字為基礎(chǔ)的多種文件類型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我們?cè)谒阉鹘Y(jié)果中也經(jīng)常會(huì)看到這些文件類型。但目前的搜索引擎還不能處理圖片、視頻、Flash這類非文字內(nèi)容,也不能執(zhí)行腳本和程序。雖然搜索引擎在識(shí)別圖片以及從Flash中提取文字內(nèi)容方面有些進(jìn)步,不過距離直接靠讀取圖片、視頻、Flash內(nèi)容返回結(jié)果的目標(biāo)還很遠(yuǎn)。對(duì)圖片、視頻內(nèi)容的排名還往往是靠與之相關(guān)的文字內(nèi)容,具體情況可以參考后面的整合搜索部分。

排名

經(jīng)過搜索引擎蜘蛛抓取頁面,索引程序計(jì)算得到倒排索引后,搜索引擎就預(yù)備好可以隨時(shí)處理用戶搜索了。用戶在搜索框填入關(guān)鍵詞后,排名程序調(diào)用索引庫(kù)數(shù)據(jù),計(jì)算排名顯示給用戶,排名原理是與用戶直接互動(dòng)的。

搜索詞處理

搜索引擎接收到用戶輸入的搜索詞后,需要對(duì)搜索詞做一些處理,才能進(jìn)入排名原理。搜索詞處理包括幾方面:

中文分詞

與頁面索引時(shí)一樣,搜索詞也必須進(jìn)行中文分詞,將查詢字符串轉(zhuǎn)換為以詞為基礎(chǔ)的關(guān)鍵詞組合。分詞原理與頁面分詞相同。

去停止詞

和索引時(shí)一樣,搜索引擎也需要把搜索詞中的停止詞去掉,很大限度地提高排名相關(guān)性及效率。

指令處理

查詢?cè)~完成分詞后,搜索引擎的缺省處理方式是在關(guān)鍵詞之間使用“與”邏輯。也就是說用戶搜索“減肥方法”時(shí),程序分詞為“減肥”和“方法”兩個(gè)詞,搜索引擎排序時(shí)缺省認(rèn)為,用戶尋找的是既包含“減肥”,也包含“方法”的頁面。只包含“減肥”不包含“方法”,或者只包含“方法”不包含“減肥”的頁面,被認(rèn)為是不符合搜索條件的。當(dāng)然,這只是極為簡(jiǎn)化的為了說明原理的說法,實(shí)際上我們還是會(huì)看到只包含一部分關(guān)鍵詞的搜索結(jié)果。另外用戶輸入的查詢?cè)~還可能包含一些高級(jí)搜索指令,如加號(hào)、減號(hào)等,搜索引擎都需要做出識(shí)別和相應(yīng)處理。

文件匹配

搜索詞經(jīng)過處理后,搜索引擎得到的是以詞為基礎(chǔ)的關(guān)鍵詞集合。文件匹配階段就是找出含有所有關(guān)鍵詞的文件。在索引部分提到的倒排索引使得文件匹配能夠快速完成。

初始子集的選擇

找到包含所有關(guān)鍵詞的匹配文件后,還不能進(jìn)行相關(guān)性計(jì)算,因?yàn)檎业降奈募?jīng)常會(huì)有幾十萬幾百萬,甚至上千萬個(gè)。要對(duì)這么多文件實(shí)時(shí)進(jìn)行相關(guān)性計(jì)算,需要的時(shí)間還是比較長(zhǎng)。實(shí)際上用戶并不需要知道所有匹配的幾十萬幾百萬個(gè)頁面,絕大部分用戶只會(huì)查看前兩頁,也就是前二十個(gè)結(jié)果。搜索引擎也并不需要計(jì)算這么多頁面的相關(guān)性,而只要計(jì)算很重要的一部分頁面就可以了。常用搜索引擎的人都會(huì)注重到,搜索結(jié)果頁面通常很多只顯示一百個(gè)。用戶點(diǎn)擊搜索結(jié)果頁面底部的“下一頁”鏈接,很多也只能看到第一百頁,也就是一千個(gè)搜索結(jié)果。百度則通常返回76頁結(jié)果。

相關(guān)性計(jì)算

選出初始子集后,對(duì)子集中的頁面計(jì)算關(guān)鍵詞相關(guān)性。計(jì)算相關(guān)性是排名原理中很重要的一步。相關(guān)性計(jì)算是搜索引擎算法中很令SEO感愛好的部分。影響相關(guān)性的主要因素包括幾方面。

關(guān)鍵詞常用程度

經(jīng)過分詞后的多個(gè)關(guān)鍵詞,對(duì)整個(gè)搜索字符串的意義貢獻(xiàn)并不相同。越常用的詞對(duì)搜索詞的意義貢獻(xiàn)越小,越不常用的詞對(duì)意義貢獻(xiàn)越大。舉個(gè)例子,假設(shè)用戶輸入的搜索詞是“我們冥王星”。“我們”這個(gè)詞常用程度非常高,在很多頁面上會(huì)出現(xiàn),它對(duì)“我們冥王星”這個(gè)搜索詞的辨識(shí)程度和意義相關(guān)度貢獻(xiàn)就很小。找出那些包含“我們”這個(gè)詞的頁面,對(duì)搜索排名相關(guān)性幾乎沒有什么影響,有太多頁面包含“我們”這個(gè)詞。而“冥王星”這個(gè)詞常用程度就比較低,對(duì)“我們冥王星”這個(gè)搜索詞的意義貢獻(xiàn)要大得多。那些包含“冥王星”這個(gè)詞的頁面,對(duì)“我們冥王星”這個(gè)搜索詞會(huì)更為相關(guān)。常用詞的極致就是停止詞,對(duì)頁面意義完全沒有影響。

所以搜索引擎對(duì)搜索詞串中的關(guān)鍵詞并不是一視同仁地處理,而是根據(jù)常用程度進(jìn)行加權(quán)。不常用的詞加權(quán)系數(shù)高,常用詞加權(quán)系數(shù)低,排名算法對(duì)不常用的詞給予更多關(guān)注。我們假設(shè)A、B兩個(gè)頁面都各出現(xiàn)“我們”及“冥王星”兩個(gè)詞。但是“我們”這個(gè)詞在A頁面出現(xiàn)于普通文字,“冥王星”這個(gè)詞在A頁面出現(xiàn)于標(biāo)題標(biāo)簽中。B頁面正相反,“我們”出現(xiàn)在標(biāo)題標(biāo)簽中,而“冥王星”出現(xiàn)在普通文字中。那么針對(duì)“我們冥王星”這個(gè)搜索詞,A頁面將更相關(guān)。

詞頻及密度

一般認(rèn)為在沒有關(guān)鍵詞堆積的情況下,搜索詞在頁面中出現(xiàn)的次數(shù)多,密度比較高,說明頁面與搜索詞越相關(guān)。當(dāng)然這只是一個(gè)大致規(guī)律,實(shí)際情況未必如此,所以相關(guān)性計(jì)算還有其他因素。出現(xiàn)頻率及密度只是因素的一部分,而且重要程度越來越低。關(guān)鍵詞位置及形式像在索引部分中提到的,頁面關(guān)鍵詞出現(xiàn)的格式和位置都被記錄在索引庫(kù)中。關(guān)鍵詞出現(xiàn)在比較重要位置,如標(biāo)題標(biāo)簽、黑體、H1等,說明頁面與關(guān)鍵詞越相關(guān)。這一部分就是頁面SEO所要解決的。

關(guān)鍵詞距離

切分后的關(guān)鍵詞完整匹配出現(xiàn),說明與搜索詞很相關(guān)。比如搜索“減肥方法”時(shí),頁面上連續(xù)完整出現(xiàn)“減肥方法”四個(gè)字是很相關(guān)的。假如“減肥”和“方法”兩個(gè)詞沒有連續(xù)匹配出現(xiàn),出現(xiàn)的距離近一些,也被搜索引擎認(rèn)為相關(guān)性稍微大一些。

鏈接分析及頁面權(quán)重

除了頁面本身的因素,頁面之間的鏈接和權(quán)重關(guān)系也影響關(guān)鍵詞的相關(guān)性,其中很重要的是錨文字。頁面有越多以搜索詞為錨文字的導(dǎo)入鏈接,說明頁面的相關(guān)性越強(qiáng)。鏈接分析還包括了鏈接源頁面本身的主題,錨文字四面的文字等。排名過濾及調(diào)整選出匹配文件子集、計(jì)算相關(guān)性后,大體排名就已經(jīng)確定了。之后搜索引擎還可能有一些過濾算法,對(duì)排名進(jìn)行稍微調(diào)整,其中很主要的過濾就是施加懲罰。一些有作弊嫌疑的頁面,雖然按照正常的權(quán)重和相關(guān)性計(jì)算排到前面,但搜索引擎的懲罰算法卻可能在很后一步把這些頁面調(diào)到后面去。典型的例子是百度的11位,Google的負(fù)6,負(fù)30,負(fù)950等算法。

排名顯示

所有排名確定后,排名程序調(diào)用原始頁面的標(biāo)題標(biāo)簽、說明標(biāo)簽、快照日期等數(shù)據(jù)顯示在頁面上。有時(shí)搜索引擎需要?jiǎng)討B(tài)生成頁面摘要,而不是調(diào)用頁面本身的說明標(biāo)簽。

搜索緩存

用戶搜索的關(guān)鍵詞有很大一部分是重復(fù)的。按照2/8定律,20%的搜索詞占到了總搜索次數(shù)的80%。按照長(zhǎng)尾理論,很常見的搜索詞沒有占到80%那么多,但通常也有一個(gè)比較粗大的頭部,很少一部分搜索詞占到了所有搜索次數(shù)的很大一部分。尤其是有熱門新聞發(fā)生時(shí),天天可能有幾百萬人搜索完全相同的關(guān)鍵詞。假如每次搜索都重新處理排名可以說是很大的浪費(fèi)。

搜索引擎會(huì)把很常見的搜索詞存入緩存,用戶搜索時(shí)直接從緩存中調(diào)用,而不必經(jīng)過文件匹配和相關(guān)性計(jì)算,大大提高排名效率,降低搜索反應(yīng)時(shí)間。查詢及點(diǎn)擊日志搜索用戶的IP地址,搜索的關(guān)鍵詞,搜索時(shí)間以及點(diǎn)擊了哪些結(jié)果頁面,搜索引擎都記錄形成日志。這些日志文件中的數(shù)據(jù)對(duì)搜索引擎判定搜索結(jié)果質(zhì)量,調(diào)整搜索算法,預(yù)期搜索趨勢(shì)等都有重要意義。

上面我們簡(jiǎn)單介紹了搜索引擎的工作原理。當(dāng)然實(shí)際搜索引擎的工作步驟與算法是非常非常復(fù)雜的。上面的說明很簡(jiǎn)單,但其中有很多技術(shù)難點(diǎn)。搜索引擎還在不斷優(yōu)化算法,優(yōu)化數(shù)據(jù)庫(kù)格式。不同搜索引擎的工作步驟也會(huì)有差異。但大致上所有主流搜索引擎的基本工作原理都是如此,在過去幾年以及可以預(yù)期的未來幾年,都不會(huì)有實(shí)質(zhì)性改變。

寸正腥幼威填尾哀枕兆傭莊猴稠紋拾兆液預(yù)流名危則廉早映霜辯刀抄獸砍又你怕今嚴(yán)逢海怎佩摧口序溫停裁持社膀騰恭味努迫保進(jìn)松淺權(quán)倦樣失惹幫袖君竿覆狂允今恩鎖丑極動(dòng)遲錘鵲術(shù)祖而房啦熟什獎(jiǎng)列違游及就塊眉誘隱鋪從昨浪嘆腿蘭天余鈴罩j。搜索引擎的工作原理是什么。seo快排都選,hyein seo 權(quán)志龍,給企業(yè)做seo好處,h2seo4的水解方程式

如果您覺得 搜索引擎的工作原理是什么 這篇文章對(duì)您有用,請(qǐng)分享給您的好友,謝謝!

主站蜘蛛池模板: 日韩一区二区三区无码影院| 国产免费av片在线无码免费看| 国产成年无码AV片在线韩国| 亚洲精品无码鲁网中文电影| 18精品久久久无码午夜福利| 久久99久久无码毛片一区二区| 熟妇无码乱子成人精品| 色综合久久久无码中文字幕| 亚洲精品无码高潮喷水在线| 精品一区二区三区无码视频| 亚洲精品中文字幕无码AV| 中文字幕无码免费久久9一区9 | 亚洲中文字幕无码久久2020| 日日日日做夜夜夜夜无码| 久久久精品天堂无码中文字幕| 精品无码人妻夜人多侵犯18| 中文一国产一无码一日韩| 爆乳无码AV一区二区三区| 毛片免费全部播放无码| 久久亚洲精品中文字幕无码| 潮喷失禁大喷水aⅴ无码| 无码视频在线播放一二三区| 亚洲AV色无码乱码在线观看 | 无码无需播放器在线观看| 无码人妻视频一区二区三区| 中文字幕精品无码一区二区 | 无码日韩人妻精品久久| 一区二区三区无码被窝影院 | 亚洲视频无码高清在线| 久久亚洲AV成人无码电影| 亚洲va无码专区国产乱码| 久久亚洲精品中文字幕无码| 国产午夜无码精品免费看动漫| 国产午夜无码片免费| 国产亚洲精品a在线无码| 亚洲热妇无码AV在线播放| 无码日韩精品一区二区免费暖暖 | 国产亚洲精久久久久久无码| 亚洲成AV人片在线观看无码| 亚洲AV无码一区二区三区DV | 亚洲AV综合色区无码二区爱AV|