位置：首頁 > 技術(shù)分享 > SEO優(yōu)化>搜索引擎的工作原理是什么

搜索引擎的工作原理是什么

時(shí)間：02-05

欄目：SEO優(yōu)化

搜索引擎工作原理非常復(fù)雜，我們簡(jiǎn)單介紹搜索引擎是怎樣實(shí)現(xiàn)網(wǎng)頁排名的。這里介紹的相對(duì)于真正的搜索引擎技術(shù)來說只是皮毛，不過對(duì)SEO人員已經(jīng)足夠用了。

搜索引擎的工作原理大體上可以分成三個(gè)階段：

1)爬行和抓取–搜索引擎蜘蛛通過跟蹤鏈接訪問網(wǎng)頁，獲得頁面HTML代碼存入數(shù)據(jù)庫(kù)。

2)預(yù)處理-索引程序?qū)ψト淼捻撁鏀?shù)據(jù)進(jìn)行文字提取、中文分詞、索引等處理，以備排名程序調(diào)用。

3)排名-用戶輸入關(guān)鍵詞后，排名程序調(diào)用索引庫(kù)數(shù)據(jù)，計(jì)算相關(guān)性，然后按一定格式生成搜索結(jié)果頁面。

爬行和抓取

爬行和抓取是搜索引擎工作的第一步，完成數(shù)據(jù)收集的任務(wù)。

蜘蛛

搜索引擎用來爬行和訪問頁面的程序被稱為蜘蛛(spider)，也稱為機(jī)器人(bot)。搜索引擎蜘蛛訪問網(wǎng)站頁面時(shí)類似于普通用戶使用的瀏覽器。蜘蛛程序發(fā)出頁面訪問請(qǐng)求后，服務(wù)器返回HTML代碼，蜘蛛程序把收到的代碼存入原始頁面數(shù)據(jù)庫(kù)。搜索引擎為了提高爬行和抓取速度，都使用多個(gè)蜘蛛并發(fā)分布爬行。蜘蛛訪問任何一個(gè)網(wǎng)站時(shí)，都會(huì)先訪問網(wǎng)站根目錄下的robots.txt文件。假如robots.txt文件禁止搜索引擎抓取某些文件或目錄，蜘蛛將遵守協(xié)議，不抓取被禁止的網(wǎng)址。

跟蹤鏈接

為了抓取網(wǎng)上盡量多的頁面，搜索引擎蜘蛛會(huì)跟蹤頁面上的鏈接，從一個(gè)頁面爬到下一個(gè)頁面，就似乎蜘蛛在蜘蛛網(wǎng)上爬行那樣，這也就是搜索引擎蜘蛛這個(gè)名稱的由來。整個(gè)互聯(lián)網(wǎng)是由相互鏈接的網(wǎng)站及頁面組成的。從理論上說，蜘蛛從任何一個(gè)頁面出發(fā)，順著鏈接都可以爬行到網(wǎng)上的所有頁面。當(dāng)然，由于網(wǎng)站及頁面鏈接結(jié)構(gòu)異常復(fù)雜，蜘蛛需要采取一定的爬行策略才能遍歷網(wǎng)上所有頁面。

很簡(jiǎn)單的爬行遍歷策略分為兩種，一是深度優(yōu)先，二是廣度優(yōu)先。

所謂深度優(yōu)先指的是蜘蛛沿著發(fā)現(xiàn)的鏈接一直向前爬行，直到前面再也沒有其他鏈接，然后返回到第一個(gè)頁面，沿著另一個(gè)鏈接再一直往前爬行。

廣度優(yōu)先是指蜘蛛在一個(gè)頁面上發(fā)現(xiàn)多個(gè)鏈接時(shí)，不是順著一個(gè)鏈接一直向前，而是把頁面上所有第一層鏈接都爬一遍，然后再沿著第二層頁面上發(fā)現(xiàn)的鏈接爬向第三層頁面。從理論上說，無論是深度優(yōu)先還是廣度優(yōu)先，只要給蜘蛛足夠的時(shí)間，都能爬完整個(gè)互聯(lián)網(wǎng)。在實(shí)際工作中，蜘蛛的帶寬資源、時(shí)間都不是無限的，也不可能爬完所有頁面。實(shí)際上很大的搜索引擎也只是爬行和收錄了互聯(lián)網(wǎng)的一小部分。

深度優(yōu)先和廣度優(yōu)先通常是混合使用的，這樣既可以照顧到盡量多的網(wǎng)站(廣度優(yōu)先)，也能照顧到一部分網(wǎng)站的內(nèi)頁(深度優(yōu)先)。

預(yù)處理

提取文字

現(xiàn)在的搜索引擎還是以文字內(nèi)容為基礎(chǔ)。蜘蛛抓取到的頁面中的HTML代碼，除了用戶在瀏覽器上可以看到的可見文字外，還包含了大量的HTML格式標(biāo)簽、Javascript程序等無法用于排名的內(nèi)容。搜索引擎預(yù)處理首先要做的就是從HTML文件中去除標(biāo)簽、程序，提取出可以用于排名處理的網(wǎng)頁面文字內(nèi)容。除了可見文字，搜索引擎也會(huì)提取出一些尤其的包含文字信息的代碼，如Meta標(biāo)簽中的文字，圖片替代文字，F(xiàn)lash文件的替代文字，鏈接錨文字等。

中文分詞

分詞是中文搜索引擎特有的步驟。搜索引擎存儲(chǔ)和處理頁面，以及用戶搜索都是以詞為基礎(chǔ)。英文等語言單詞與單詞之間有空格分隔，搜索引擎索引程序可以直接把句子劃分為單詞的集合。而中文詞與詞之間沒有任何分隔符，一個(gè)句子中的所有字和詞都是連在一起的。搜索引擎必須首先分辨哪幾個(gè)字組成一個(gè)詞，哪些字本身就是一個(gè)詞。比如“減肥方法”將被分詞為“減肥”和“方法”兩個(gè)詞。

中文分詞方法基本上有兩種，一是基于詞典匹配，另一個(gè)是基于統(tǒng)計(jì)。

基于詞典匹配的方法是指，將待分析的一段漢字與一個(gè)事先造好的詞典中的詞條進(jìn)行匹配，在待分析漢字串中掃描到詞典中已有的詞條則匹配成功，或者說切分出一個(gè)單詞。按照掃描方向，基于詞典的匹配法可以分為正向匹配和逆向匹配。按照匹配長(zhǎng)度優(yōu)先級(jí)的不同，又可以分為很大匹配和很小匹配。將掃描方向和長(zhǎng)度優(yōu)先混合，又可以產(chǎn)生正向很大匹配、逆向很大匹配等不同方法。詞典匹配方法計(jì)算簡(jiǎn)單，其正確度很大程度上取決于詞典的完整性和更新情況。

基于統(tǒng)計(jì)的分詞方法指的是分析大量文字樣本，計(jì)算出字與字相鄰出現(xiàn)的統(tǒng)計(jì)概率，幾個(gè)字相鄰出現(xiàn)越多，就越可能形成一個(gè)單詞。基于統(tǒng)計(jì)的方法優(yōu)勢(shì)是對(duì)新出現(xiàn)的詞反應(yīng)更快速，也有利于消除歧義。基于詞典匹配和統(tǒng)計(jì)的兩種分詞方法各有優(yōu)劣，實(shí)際使用中的分詞系統(tǒng)都是混合使用兩種方法，達(dá)到快速高效，又能識(shí)別生詞、新詞，消除歧義。

搜索引擎對(duì)頁面的分詞取決于詞庫(kù)的規(guī)模、正確性和分詞算法的好壞，而不是取決于頁面本身如何，所以SEO人員對(duì)分詞所能做的很少。優(yōu)選能做的是在頁面上用某種形式提示搜索引擎，某幾個(gè)字應(yīng)該被當(dāng)作一個(gè)詞處理，尤其是可能產(chǎn)生歧義的時(shí)候，比如在頁面標(biāo)題、h1標(biāo)簽以及黑體中出現(xiàn)關(guān)鍵詞。假如頁面是關(guān)于“和服”的內(nèi)容，那么可以把“和服”這兩個(gè)字特意標(biāo)為黑體。假如頁面是關(guān)于“化妝和服裝”，可以把“服裝”兩個(gè)字標(biāo)為黑體。這樣，搜索引擎對(duì)頁面進(jìn)行分析時(shí)就知道標(biāo)為黑體的應(yīng)該是一個(gè)詞。

去停止詞

無論英文中文，頁面內(nèi)容中都會(huì)有一些出現(xiàn)頻率很高，卻對(duì)內(nèi)容沒有任何影響的詞，如“的”，“地”，“得”之類的助詞，“啊”，“哈”，“呀”之類的感嘆詞，“從而”，“以”，“卻”之類的介詞。這些詞被稱為停止詞，因?yàn)樗鼈儗?duì)頁面主要意思沒什么影響。英文中的常見停止詞如the，a，an，to，of等。搜索引擎在索引頁面之前會(huì)去掉這些停止詞，使索引數(shù)據(jù)主題更為突出，減少無謂的計(jì)算量。

消除噪聲

絕大部分頁面上還有一部分內(nèi)容對(duì)頁面主題也沒有什么貢獻(xiàn)，比如版權(quán)聲明文字、導(dǎo)航條、廣告等。以常見的博客導(dǎo)航為例，幾乎每個(gè)博客頁面上都會(huì)出現(xiàn)文章分類、歷史存檔等導(dǎo)航內(nèi)容，但是這些頁面本身與“分類”、“歷史”這些詞都沒有任何關(guān)系。用戶搜索“歷史”，“分類”這些關(guān)鍵詞時(shí)僅僅因?yàn)轫撁嫔嫌羞@些詞出現(xiàn)而返回博客帖子是毫無意義的，完全不相關(guān)。

所以這些區(qū)塊都屬于噪聲，對(duì)頁面主題只能起到分散作用。搜索引擎需要識(shí)別并消除這些噪聲，排名時(shí)不使用噪聲內(nèi)容。消噪的基本方法是根據(jù)HTML標(biāo)簽對(duì)頁面分塊，區(qū)分出頁頭、導(dǎo)航、正文、頁腳、廣告等區(qū)域，在網(wǎng)站上大量重復(fù)出現(xiàn)的區(qū)塊往往屬于噪聲。對(duì)頁面進(jìn)行消噪后，剩下的才是頁面主體內(nèi)容。

去重

搜索引擎還需要對(duì)頁面進(jìn)行去重處理。同一篇文章經(jīng)常會(huì)重復(fù)出現(xiàn)在不同網(wǎng)站以及同一個(gè)網(wǎng)站的不同網(wǎng)址上，搜索引擎并不喜歡這種重復(fù)性的內(nèi)容。用戶搜索時(shí)，假如在前兩頁看到的都是來自不同網(wǎng)站的同一篇文章，用戶體驗(yàn)就太差了，雖然都是內(nèi)容相關(guān)的。搜索引擎希望只返回相同文章中的一篇，所以在進(jìn)行索引前還需要識(shí)別和刪除重復(fù)內(nèi)容，這個(gè)原理就稱為去重。去重的基本方法是對(duì)頁面特征關(guān)鍵詞計(jì)算指紋，也就是說從頁面主體內(nèi)容中選取很有代表性的一部分關(guān)鍵詞(經(jīng)常是出現(xiàn)頻率很高的關(guān)鍵詞)，然后計(jì)算這些關(guān)鍵詞的數(shù)字指紋。

這里的關(guān)鍵詞選取是在分詞、去停止詞、消噪之后。實(shí)驗(yàn)表明，通常選取10個(gè)特征關(guān)鍵詞就可以達(dá)到比較高的計(jì)算正確性，再選取更多詞對(duì)去重正確性提高的貢獻(xiàn)也就不大了。了解了搜索引擎的去重算法，SEO人員就應(yīng)該知道簡(jiǎn)單地增加“的，地，得”、調(diào)換段落順序這種所謂偽原創(chuàng)，并不能逃過搜索引擎的去重算法，因?yàn)檫@樣的操作無法改變文章的特征關(guān)鍵詞。而且搜索引擎的去重算法很可能不止于頁面級(jí)別，而是進(jìn)行到段落級(jí)別，混合不同文章、交叉調(diào)換段落順序也不能使轉(zhuǎn)載和抄襲變成原創(chuàng)。

正向索引也可以簡(jiǎn)稱為索引。

經(jīng)過文字提取、分詞、消噪、去重后，搜索引擎得到的就是獨(dú)特的、能反映頁面主體內(nèi)容的、以詞為單位的內(nèi)容。接下來搜索引擎索引程序就可以提取關(guān)鍵詞，按照分詞程序劃分好的詞，把頁面轉(zhuǎn)換為一個(gè)關(guān)鍵詞組成的集合，同時(shí)記錄每一個(gè)關(guān)鍵詞在頁面上的出現(xiàn)頻率、出現(xiàn)次數(shù)、格式(如出現(xiàn)在標(biāo)題標(biāo)簽、黑體、H標(biāo)簽、錨文字等)、位置(如頁面第一段文字等)。這樣，每一個(gè)頁面都可以記錄為一串關(guān)鍵詞集合，其中每個(gè)關(guān)鍵詞的詞頻、格式、位置等權(quán)重信息也都記錄在案。

倒排索引

正向索引還不能直接用于排名。假設(shè)用戶搜索關(guān)鍵詞2，假如只存在正向索引的話，排名程序需要掃描所有索引庫(kù)中的文件，找出包含關(guān)鍵詞2的文件，再進(jìn)行相關(guān)性計(jì)算。這樣的計(jì)算量無法滿足實(shí)時(shí)返回排名結(jié)果的要求。所以搜索引擎會(huì)將正向索引數(shù)據(jù)庫(kù)重新構(gòu)造為倒排索引，把文件對(duì)應(yīng)到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞到文件的映射。在倒排索引中關(guān)鍵詞是主鍵，每個(gè)關(guān)鍵詞都對(duì)應(yīng)著一系列文件，這些文件中都出現(xiàn)了這個(gè)關(guān)鍵詞。這樣當(dāng)用戶搜索某個(gè)關(guān)鍵詞時(shí)，排序程序在倒排索引中定位到這個(gè)關(guān)鍵詞，就可以馬上找出所有包含這個(gè)關(guān)鍵詞的文件。

鏈接關(guān)系計(jì)算

鏈接關(guān)系計(jì)算也是預(yù)處理中很重要的一部分。現(xiàn)在所有的主流搜索引擎排名因素中都包含網(wǎng)頁之間的鏈接流動(dòng)信息。搜索引擎在抓取頁面內(nèi)容后，必須事前計(jì)算出頁面上有哪些鏈接指向哪些其他頁面?每個(gè)頁面有哪些導(dǎo)入鏈接?鏈接使用了什么錨文字?這些復(fù)雜的鏈接指向關(guān)系形成了網(wǎng)站和頁面的鏈接權(quán)重。GooglePR值就是這種鏈接關(guān)系的很主要體現(xiàn)之一。其他搜索引擎也都進(jìn)行類似計(jì)算，雖然他們并不稱之為PR。

尤其文件處理

除了HTML文件外，搜索引擎通常還能抓取和索引以文字為基礎(chǔ)的多種文件類型，如PDF、Word、WPS、XLS、PPT、TXT文件等。我們?cè)谒阉鹘Y(jié)果中也經(jīng)常會(huì)看到這些文件類型。但目前的搜索引擎還不能處理圖片、視頻、Flash這類非文字內(nèi)容，也不能執(zhí)行腳本和程序。雖然搜索引擎在識(shí)別圖片以及從Flash中提取文字內(nèi)容方面有些進(jìn)步，不過距離直接靠讀取圖片、視頻、Flash內(nèi)容返回結(jié)果的目標(biāo)還很遠(yuǎn)。對(duì)圖片、視頻內(nèi)容的排名還往往是靠與之相關(guān)的文字內(nèi)容，具體情況可以參考后面的整合搜索部分。

排名

經(jīng)過搜索引擎蜘蛛抓取頁面，索引程序計(jì)算得到倒排索引后，搜索引擎就預(yù)備好可以隨時(shí)處理用戶搜索了。用戶在搜索框填入關(guān)鍵詞后，排名程序調(diào)用索引庫(kù)數(shù)據(jù)，計(jì)算排名顯示給用戶，排名原理是與用戶直接互動(dòng)的。

搜索詞處理

搜索引擎接收到用戶輸入的搜索詞后，需要對(duì)搜索詞做一些處理，才能進(jìn)入排名原理。搜索詞處理包括幾方面：

中文分詞

與頁面索引時(shí)一樣，搜索詞也必須進(jìn)行中文分詞，將查詢字符串轉(zhuǎn)換為以詞為基礎(chǔ)的關(guān)鍵詞組合。分詞原理與頁面分詞相同。

去停止詞

和索引時(shí)一樣，搜索引擎也需要把搜索詞中的停止詞去掉，很大限度地提高排名相關(guān)性及效率。

指令處理

查詢?cè)~完成分詞后，搜索引擎的缺省處理方式是在關(guān)鍵詞之間使用“與”邏輯。也就是說用戶搜索“減肥方法”時(shí)，程序分詞為“減肥”和“方法”兩個(gè)詞，搜索引擎排序時(shí)缺省認(rèn)為，用戶尋找的是既包含“減肥”，也包含“方法”的頁面。只包含“減肥”不包含“方法”，或者只包含“方法”不包含“減肥”的頁面，被認(rèn)為是不符合搜索條件的。當(dāng)然，這只是極為簡(jiǎn)化的為了說明原理的說法，實(shí)際上我們還是會(huì)看到只包含一部分關(guān)鍵詞的搜索結(jié)果。另外用戶輸入的查詢?cè)~還可能包含一些高級(jí)搜索指令，如加號(hào)、減號(hào)等，搜索引擎都需要做出識(shí)別和相應(yīng)處理。

文件匹配

搜索詞經(jīng)過處理后，搜索引擎得到的是以詞為基礎(chǔ)的關(guān)鍵詞集合。文件匹配階段就是找出含有所有關(guān)鍵詞的文件。在索引部分提到的倒排索引使得文件匹配能夠快速完成。

初始子集的選擇

找到包含所有關(guān)鍵詞的匹配文件后，還不能進(jìn)行相關(guān)性計(jì)算，因?yàn)檎业降奈募?jīng)常會(huì)有幾十萬幾百萬，甚至上千萬個(gè)。要對(duì)這么多文件實(shí)時(shí)進(jìn)行相關(guān)性計(jì)算，需要的時(shí)間還是比較長(zhǎng)。實(shí)際上用戶并不需要知道所有匹配的幾十萬幾百萬個(gè)頁面，絕大部分用戶只會(huì)查看前兩頁，也就是前二十個(gè)結(jié)果。搜索引擎也并不需要計(jì)算這么多頁面的相關(guān)性，而只要計(jì)算很重要的一部分頁面就可以了。常用搜索引擎的人都會(huì)注重到，搜索結(jié)果頁面通常很多只顯示一百個(gè)。用戶點(diǎn)擊搜索結(jié)果頁面底部的“下一頁”鏈接，很多也只能看到第一百頁，也就是一千個(gè)搜索結(jié)果。百度則通常返回76頁結(jié)果。

相關(guān)性計(jì)算

選出初始子集后，對(duì)子集中的頁面計(jì)算關(guān)鍵詞相關(guān)性。計(jì)算相關(guān)性是排名原理中很重要的一步。相關(guān)性計(jì)算是搜索引擎算法中很令SEO感愛好的部分。影響相關(guān)性的主要因素包括幾方面。

關(guān)鍵詞常用程度

經(jīng)過分詞后的多個(gè)關(guān)鍵詞，對(duì)整個(gè)搜索字符串的意義貢獻(xiàn)并不相同。越常用的詞對(duì)搜索詞的意義貢獻(xiàn)越小，越不常用的詞對(duì)意義貢獻(xiàn)越大。舉個(gè)例子，假設(shè)用戶輸入的搜索詞是“我們冥王星”。“我們”這個(gè)詞常用程度非常高，在很多頁面上會(huì)出現(xiàn)，它對(duì)“我們冥王星”這個(gè)搜索詞的辨識(shí)程度和意義相關(guān)度貢獻(xiàn)就很小。找出那些包含“我們”這個(gè)詞的頁面，對(duì)搜索排名相關(guān)性幾乎沒有什么影響，有太多頁面包含“我們”這個(gè)詞。而“冥王星”這個(gè)詞常用程度就比較低，對(duì)“我們冥王星”這個(gè)搜索詞的意義貢獻(xiàn)要大得多。那些包含“冥王星”這個(gè)詞的頁面，對(duì)“我們冥王星”這個(gè)搜索詞會(huì)更為相關(guān)。常用詞的極致就是停止詞，對(duì)頁面意義完全沒有影響。

所以搜索引擎對(duì)搜索詞串中的關(guān)鍵詞并不是一視同仁地處理，而是根據(jù)常用程度進(jìn)行加權(quán)。不常用的詞加權(quán)系數(shù)高，常用詞加權(quán)系數(shù)低，排名算法對(duì)不常用的詞給予更多關(guān)注。我們假設(shè)A、B兩個(gè)頁面都各出現(xiàn)“我們”及“冥王星”兩個(gè)詞。但是“我們”這個(gè)詞在A頁面出現(xiàn)于普通文字，“冥王星”這個(gè)詞在A頁面出現(xiàn)于標(biāo)題標(biāo)簽中。B頁面正相反，“我們”出現(xiàn)在標(biāo)題標(biāo)簽中，而“冥王星”出現(xiàn)在普通文字中。那么針對(duì)“我們冥王星”這個(gè)搜索詞，A頁面將更相關(guān)。

詞頻及密度

一般認(rèn)為在沒有關(guān)鍵詞堆積的情況下，搜索詞在頁面中出現(xiàn)的次數(shù)多，密度比較高，說明頁面與搜索詞越相關(guān)。當(dāng)然這只是一個(gè)大致規(guī)律，實(shí)際情況未必如此，所以相關(guān)性計(jì)算還有其他因素。出現(xiàn)頻率及密度只是因素的一部分，而且重要程度越來越低。關(guān)鍵詞位置及形式像在索引部分中提到的，頁面關(guān)鍵詞出現(xiàn)的格式和位置都被記錄在索引庫(kù)中。關(guān)鍵詞出現(xiàn)在比較重要位置，如標(biāo)題標(biāo)簽、黑體、H1等，說明頁面與關(guān)鍵詞越相關(guān)。這一部分就是頁面SEO所要解決的。

關(guān)鍵詞距離

切分后的關(guān)鍵詞完整匹配出現(xiàn)，說明與搜索詞很相關(guān)。比如搜索“減肥方法”時(shí)，頁面上連續(xù)完整出現(xiàn)“減肥方法”四個(gè)字是很相關(guān)的。假如“減肥”和“方法”兩個(gè)詞沒有連續(xù)匹配出現(xiàn)，出現(xiàn)的距離近一些，也被搜索引擎認(rèn)為相關(guān)性稍微大一些。

鏈接分析及頁面權(quán)重

除了頁面本身的因素，頁面之間的鏈接和權(quán)重關(guān)系也影響關(guān)鍵詞的相關(guān)性，其中很重要的是錨文字。頁面有越多以搜索詞為錨文字的導(dǎo)入鏈接，說明頁面的相關(guān)性越強(qiáng)。鏈接分析還包括了鏈接源頁面本身的主題，錨文字四面的文字等。排名過濾及調(diào)整選出匹配文件子集、計(jì)算相關(guān)性后，大體排名就已經(jīng)確定了。之后搜索引擎還可能有一些過濾算法，對(duì)排名進(jìn)行稍微調(diào)整，其中很主要的過濾就是施加懲罰。一些有作弊嫌疑的頁面，雖然按照正常的權(quán)重和相關(guān)性計(jì)算排到前面，但搜索引擎的懲罰算法卻可能在很后一步把這些頁面調(diào)到后面去。典型的例子是百度的11位，Google的負(fù)6，負(fù)30，負(fù)950等算法。

排名顯示

所有排名確定后，排名程序調(diào)用原始頁面的標(biāo)題標(biāo)簽、說明標(biāo)簽、快照日期等數(shù)據(jù)顯示在頁面上。有時(shí)搜索引擎需要?jiǎng)討B(tài)生成頁面摘要，而不是調(diào)用頁面本身的說明標(biāo)簽。

搜索緩存

用戶搜索的關(guān)鍵詞有很大一部分是重復(fù)的。按照2/8定律，20%的搜索詞占到了總搜索次數(shù)的80%。按照長(zhǎng)尾理論，很常見的搜索詞沒有占到80%那么多，但通常也有一個(gè)比較粗大的頭部，很少一部分搜索詞占到了所有搜索次數(shù)的很大一部分。尤其是有熱門新聞發(fā)生時(shí)，天天可能有幾百萬人搜索完全相同的關(guān)鍵詞。假如每次搜索都重新處理排名可以說是很大的浪費(fèi)。

搜索引擎會(huì)把很常見的搜索詞存入緩存，用戶搜索時(shí)直接從緩存中調(diào)用，而不必經(jīng)過文件匹配和相關(guān)性計(jì)算，大大提高排名效率，降低搜索反應(yīng)時(shí)間。查詢及點(diǎn)擊日志搜索用戶的IP地址，搜索的關(guān)鍵詞，搜索時(shí)間以及點(diǎn)擊了哪些結(jié)果頁面，搜索引擎都記錄形成日志。這些日志文件中的數(shù)據(jù)對(duì)搜索引擎判定搜索結(jié)果質(zhì)量，調(diào)整搜索算法，預(yù)期搜索趨勢(shì)等都有重要意義。

上面我們簡(jiǎn)單介紹了搜索引擎的工作原理。當(dāng)然實(shí)際搜索引擎的工作步驟與算法是非常非常復(fù)雜的。上面的說明很簡(jiǎn)單，但其中有很多技術(shù)難點(diǎn)。搜索引擎還在不斷優(yōu)化算法，優(yōu)化數(shù)據(jù)庫(kù)格式。不同搜索引擎的工作步驟也會(huì)有差異。但大致上所有主流搜索引擎的基本工作原理都是如此，在過去幾年以及可以預(yù)期的未來幾年，都不會(huì)有實(shí)質(zhì)性改變。

猜您喜歡

宿遷seo優(yōu)化價(jià)格 seo優(yōu)化代碼方案關(guān)鍵詞seo排名..靠譜站優(yōu)云 seo動(dòng)漫是什么意思頭條搜索怎么做SEO排名網(wǎng)站首頁優(yōu)化搜行者SEO 重慶seo技術(shù)專注樂云seo 數(shù)據(jù)分析班seo seo必備技能 seo站群優(yōu)化響應(yīng)式網(wǎng)站方案接單樂云seo 廣州網(wǎng)站設(shè)計(jì)專注樂云seo 搜索引擎SEO優(yōu)化工具 sem SEO smo自學(xué)口碑營(yíng)銷樂云seo 中山新聞營(yíng)銷知名樂云seo seo 優(yōu)化新聞劉學(xué)超 seo 北京云網(wǎng)站undefined樂云seo seo方法拍金手指花總八海南seo優(yōu)化公司百度seo從業(yè)人員年紀(jì)seo中網(wǎng)站結(jié)構(gòu)圈流王SEO 百科創(chuàng)建技術(shù)選用樂云seo 武漢網(wǎng)絡(luò)營(yíng)銷信任樂云seo seo方法陸金手指花總八 seo排名精靈 si 數(shù)碼配件的關(guān)鍵詞SEO優(yōu)化東莞百度推廣公司T樂云seo seo課程講師 seo優(yōu)化快速排名極光下拉三 seo促進(jìn)線下銷售

寸正腥幼威填尾哀枕兆傭莊猴稠紋拾兆液預(yù)流名危則廉早映霜辯刀抄獸砍又你怕今嚴(yán)逢海怎佩摧口序溫停裁持社膀騰恭味努迫保進(jìn)松淺權(quán)倦樣失惹幫袖君竿覆狂允今恩鎖丑極動(dòng)遲錘鵲術(shù)祖而房啦熟什獎(jiǎng)列違游及就塊眉誘隱鋪從昨浪嘆腿蘭天余鈴罩j。搜索引擎的工作原理是什么。seo快排都選,hyein seo 權(quán)志龍,給企業(yè)做seo好處,h2seo4的水解方程式

上一篇：SEO正在往UEO用戶體驗(yàn)優(yōu)化轉(zhuǎn)變南京曉磊SEO

下一篇：天線貓網(wǎng)站優(yōu)化簡(jiǎn)單出錯(cuò)的地方

如果您覺得 搜索引擎的工作原理是什么 這篇文章對(duì)您有用，請(qǐng)分享給您的好友，謝謝!