返回頂部
關(guān)閉軟件導(dǎo)航
位置:首頁 > 技術(shù)分享 > SEO優(yōu)化>搜索引擎優(yōu)化SEO基礎(chǔ)原理

昨天的文章全球化的誤區(qū),本地化的機(jī)會(huì),評(píng)論里,有人說,搜索引擎技術(shù)似乎不需要本地化,這一看就是徹底不懂這個(gè)領(lǐng)域的人講的。當(dāng)然,實(shí)話說,假如有人說,google在中文本地化方面做得非常好,我是可以部分同意的,同意的比例可能會(huì)比google工程師少一些。但我相信google工程師也會(huì)告訴你,搜索引擎是需要本地化的。

今天寫篇科普文,講講搜索引擎的技術(shù)機(jī)理和市場(chǎng)競(jìng)爭(zhēng)的一些特點(diǎn)。當(dāng)然,作為從事或有愛好從事流量運(yùn)營(yíng)的朋友,是可以用另一個(gè)角度去理解本文。

搜索引擎的核心技術(shù)架構(gòu),大體包括以下三塊,第一,是蜘蛛/爬蟲技術(shù);第二,是索引技術(shù);第三是查詢展現(xiàn)的技術(shù);當(dāng)然,我不是搜索引擎的架構(gòu)師,我只能用比較粗淺的方式來做一個(gè)結(jié)構(gòu)的切分。

1、蜘蛛,也叫爬蟲,是將互聯(lián)網(wǎng)的信息,抓取并存儲(chǔ)的一種技術(shù)實(shí)現(xiàn)。

搜索引擎的信息收錄,很多不明所以的人會(huì)有很多誤解,以為是付費(fèi)收錄,或者有什么其他尤其的提交技巧,其實(shí)并不是,搜索引擎通過互聯(lián)網(wǎng)一些公開知名的網(wǎng)站,抓取內(nèi)容,并分析其中的鏈接,然后有選擇的抓取鏈接里的內(nèi)容,然后再分析其中的鏈接,以此類推,通過有限的入口,基于彼此鏈接,形成強(qiáng)大的信息抓取能力。

有些搜索引擎本身也有鏈接提交入口,但基本上,不是主要的收錄入口,不過作為創(chuàng)業(yè)者,建議了解一下相關(guān)信息,百度,google都有站長(zhǎng)平臺(tái)和治理后臺(tái),這里很多內(nèi)容是需要非常非常認(rèn)真的對(duì)待的。

反過來說,在這樣的原理下,一個(gè)網(wǎng)站,只有被其他網(wǎng)站所鏈接,才有機(jī)會(huì)被搜索引擎抓取。假如這個(gè)網(wǎng)站沒有外部鏈接,或者外部鏈接在搜索引擎中被認(rèn)為是垃圾或無效鏈接,那么搜索引擎可能就不抓取他的頁面。

分析和判定搜索引擎是否抓取了你的頁面,或者什么時(shí)候抓取你的頁面,只能通過服務(wù)器上的訪問日志來查詢,假如是cdn就比較麻煩。而基于網(wǎng)站嵌入代碼的方式,不論是cnzz,百度統(tǒng)計(jì),還是googleanalytics,都無法獲得蜘蛛抓取的信息,因?yàn)檫@些信息不會(huì)觸發(fā)這些代碼的執(zhí)行。

一個(gè)比較推薦的日志分析軟件是awstats。

在十多年前,分析百度蜘蛛抓取軌跡和更新策略,是很多草根站長(zhǎng)每日必做的功課,比如現(xiàn)在身價(jià)幾十億的知名80后公司,當(dāng)年在某站長(zhǎng)論壇就是以此正確的分析判定而封神,很年輕的時(shí)候就已經(jīng)是站長(zhǎng)圈的一代偶像。

但關(guān)于蜘蛛的話題,并不只基于鏈接抓取這么簡(jiǎn)單,延伸來說

第一,網(wǎng)站擁有者可以選擇是否答應(yīng)蜘蛛抓取,有一個(gè)robots.txt的文件是來控制這個(gè)的。

一個(gè)經(jīng)典案例是你會(huì)看到,淘寶至今仍有關(guān)鍵目錄不對(duì)百度蜘蛛開放,但對(duì)google開放。

另一個(gè)經(jīng)典案例是你看出什么了?你可能什么都沒看出來,我提醒一句,百度實(shí)質(zhì)上全面禁止了360的蜘蛛抓取。

但這個(gè)協(xié)議只是約定俗成,實(shí)際上并沒有強(qiáng)制約束力,所以,你們猜猜,360遵守了百度的蜘蛛抓取禁止么?

第二,很早抓取是基于網(wǎng)站彼此的鏈接為入口,但實(shí)際上,并不能肯定的說,有可能存在其他抓取入口,比如說,客戶端插件或?yàn)g覽器,免費(fèi)網(wǎng)站統(tǒng)計(jì)系統(tǒng)的嵌入式代碼。

會(huì)不會(huì)成為蜘蛛抓取的入口,我只能說,有這個(gè)可能。

所以我跟很多創(chuàng)業(yè)者說,中國(guó)做網(wǎng)站,放百度統(tǒng)計(jì),海外做網(wǎng)站,放googleanalytics,是否會(huì)增加搜索引擎對(duì)你網(wǎng)站的收錄?我只能說猜測(cè),有這個(gè)可能。

第三,無法被抓取的信息

有些網(wǎng)站的內(nèi)容鏈接,用一些javascript尤其效果完成,比如浮動(dòng)的菜單等等,這種連接,有可能搜索引擎的蜘蛛程序不識(shí)別,當(dāng)然,我只是說有可能,現(xiàn)在搜索引擎比以前聰明,十多年前很多特效鏈接是不識(shí)別的,現(xiàn)在會(huì)好一些。

需要登錄,需要注冊(cè)才能訪問的頁面,蜘蛛是無法進(jìn)入的,也就是無法收錄。

有些網(wǎng)站會(huì)給搜索尤其頁面,就是蜘蛛來能看到內(nèi)容(蜘蛛訪問會(huì)有尤其的客戶端標(biāo)記,服務(wù)端識(shí)別和處理并不復(fù)雜),人來了要登錄才能看,但這樣做其實(shí)是違反了收錄協(xié)議(需要人和蜘蛛看到的同樣的內(nèi)容,這是絕大部分搜索引擎的收錄協(xié)議),有可能遭到搜索引擎處罰。

所以一個(gè)社區(qū)要想通過搜索引擎帶來免費(fèi)用戶,必須讓訪客能看到內(nèi)容,哪怕是部分內(nèi)容。

搜索引擎優(yōu)化SEO基礎(chǔ)原理

帶很多復(fù)雜參數(shù)的內(nèi)容鏈接url,有可能被蜘蛛當(dāng)作重復(fù)頁面,拒絕收錄。

很多動(dòng)態(tài)頁面是一個(gè)腳本程序帶參數(shù)體現(xiàn)的,但蜘蛛發(fā)現(xiàn)同一個(gè)腳本有大量參數(shù)的網(wǎng)頁,有時(shí)候會(huì)給該網(wǎng)頁的價(jià)值評(píng)估帶來困擾,蜘蛛可能會(huì)認(rèn)為這個(gè)網(wǎng)頁是重復(fù)頁面,而拒絕收錄。還是那句話,隨著技術(shù)的發(fā)展,蜘蛛對(duì)動(dòng)態(tài)腳本的參數(shù)識(shí)別度有了很大進(jìn)步,現(xiàn)在基本上可以不用考慮這個(gè)問題。

但這個(gè)催生了一個(gè)技術(shù),叫做偽靜態(tài)化,通過對(duì)web服務(wù)端做配置,讓用戶訪問的頁面,url格式看上去是一個(gè)靜態(tài)頁,其實(shí)后面是一個(gè)正則匹配,實(shí)際執(zhí)行的是一個(gè)動(dòng)態(tài)腳本。

很多社區(qū)論壇為了追求免費(fèi)搜索來路,做了偽靜態(tài)化處理,在十多年前,幾乎是草根站長(zhǎng)必備技能之一。

爬蟲技術(shù)暫時(shí)說到這里,但是這里強(qiáng)調(diào)一下,有外鏈,不代表搜索蜘蛛會(huì)來爬取,搜索蜘蛛爬取了,不代表搜索引擎會(huì)收錄;搜索引擎收錄了,不代表用戶可以搜索的到;

site語法是檢查一個(gè)網(wǎng)站收錄數(shù)的很基本搜索語法,我開始以為是abc的常識(shí),直到在新加坡做一些創(chuàng)業(yè)培訓(xùn)后交流才發(fā)現(xiàn),大部分剛進(jìn)入這個(gè)行業(yè)的人,或者有愛好進(jìn)入這個(gè)行業(yè)的人,對(duì)此并不了解。

一個(gè)范例,百度搜索一下site:4399.com

2、索引系統(tǒng)

蜘蛛抓取的是網(wǎng)頁的內(nèi)容,那么要想讓用戶快速的通過關(guān)鍵詞搜索到這個(gè)網(wǎng)頁,就必須對(duì)網(wǎng)頁做關(guān)鍵詞的索引,從而提升查詢效率,簡(jiǎn)單說就是,把網(wǎng)頁的每個(gè)關(guān)鍵詞提取出來,并針對(duì)這些關(guān)鍵詞在網(wǎng)頁中的出現(xiàn)頻率,位置,尤其標(biāo)記等諸多因素,給予不同的權(quán)值標(biāo)定,然后,存儲(chǔ)到索引庫中。

那么問題來了,什么是關(guān)鍵詞。

英文來說,比如thisisabook,中文,這是一本書。

英文很自然是四個(gè)單詞,空格是天然的分詞符,中文呢?你不能把一句話當(dāng)作關(guān)鍵詞吧(假如把一句話當(dāng)作關(guān)鍵詞,那么你搜索其中部分信息的時(shí)候,是無法索引命中的,比如搜索一本書,就搜索不出來了,而這顯然是不符合搜索引擎訴求的)。所以要分詞。

很開始,很簡(jiǎn)單的思路是,每個(gè)字都切開,這個(gè)以前叫字索引,每個(gè)字建立索引,并標(biāo)注位置,假如用戶搜索一個(gè)關(guān)鍵詞,也是把關(guān)鍵詞拆成字來搜索再組合結(jié)果,但這樣問題就來了。

比如搜索關(guān)鍵詞“海鮮”的時(shí)候,會(huì)出現(xiàn)結(jié)果,上海鮮花,這顯然不是應(yīng)該的搜索結(jié)果。

比如搜索關(guān)鍵詞“和服”的時(shí)候,會(huì)出現(xiàn)結(jié)果,交換機(jī)和服務(wù)器。

這些都是蠻荒期的google也不能幸免的問題。

到后來有個(gè)梗,別笑,這些都是血淚梗,半夜電話過來,說網(wǎng)監(jiān)通過搜索發(fā)現(xiàn)你社區(qū)有淫穢內(nèi)容要求必須刪除,否則就關(guān)閉你的網(wǎng)站,夜半驚醒認(rèn)真排查,百思不得其解,苦苦請(qǐng)求提供信息線索,很后發(fā)現(xiàn),有人發(fā)了一條小廣告,“求購二十四口交換機(jī)”。還有,涉嫌政治敏感,查到很后“提供三臺(tái)獨(dú)立服務(wù)器”,看出其中敏感詞了沒?你說冤不冤。這兩個(gè)故事可能并不是真的,因?yàn)槎际蔷W(wǎng)上看到的,但是我想說,類似這樣的事情真的有,并非都是空穴來風(fēng)。

所以,分詞,是亞洲很多語言需要額外處理的事情,而西方語言不存在的問題。

但分詞不是說說那么簡(jiǎn)單,比如幾點(diǎn),1:如何識(shí)別人名?2、互聯(lián)網(wǎng)新詞如何識(shí)別?比如“不明覺厲”。3、中英混排的坑,比如QQ表情。

做一個(gè)分詞系統(tǒng),說到底也不難,但是要做一個(gè)自動(dòng)學(xué)習(xí),與時(shí)俱進(jìn),又能高效率靈活的分詞引擎,還是很有技術(shù)難度的。當(dāng)然,這方面我不是專家,不敢妄言了。

現(xiàn)在機(jī)器學(xué)習(xí)技術(shù)發(fā)達(dá)了,尤其是google在深度學(xué)習(xí)領(lǐng)域擁有領(lǐng)先優(yōu)勢(shì),以前很多通過人工做標(biāo)定,做分類的工作可以交給算法完成,從某種意義來說,本地化的工作可以讓機(jī)器學(xué)習(xí)去完成;未來,也許深度學(xué)習(xí)技術(shù)可以自己學(xué)習(xí)把握本地化的技巧。但我想說兩點(diǎn),第一,從搜索引擎發(fā)展歷史看,在深度學(xué)習(xí)技術(shù)還沒成熟的情況下,本地化的工作是非常重要的,也是很重要的決定競(jìng)爭(zhēng)成敗的要素;第二,即便現(xiàn)在深度學(xué)習(xí)已經(jīng)很強(qiáng)大,基于當(dāng)?shù)卣Z言的人工參與,標(biāo)定,測(cè)試,反饋,一些本地化的工作依然對(duì)深度學(xué)習(xí)的效率和效果擁有不可替代的作用。

索引系統(tǒng)除了分詞之外,還有一些要點(diǎn),比如實(shí)時(shí)索引,因?yàn)橐淮嗡饕龓斓母率莻€(gè)大動(dòng)靜,一般網(wǎng)站運(yùn)營(yíng)者知道,自己網(wǎng)站內(nèi)容更新后,需要等索引庫下一次更新才能看到效果,而且索引庫針對(duì)不同權(quán)重的網(wǎng)站內(nèi)容,更新的頻次也不太一樣。但諸如一些高優(yōu)先的資訊網(wǎng)站,以及新聞搜索,索引庫是可以做到近似實(shí)時(shí)索引的,所以我們?cè)谛侣勊阉骼铮瑤追昼娗暗男畔⒕鸵呀?jīng)可以搜索到了。

我以前經(jīng)常吐槽一個(gè)事情,我在百度空間發(fā)表的文章,每次都是google率先索引收錄,當(dāng)時(shí)他們的解釋是,猜測(cè)是因?yàn)楹芏嗳送ㄟ^google閱讀器訂閱我的博客,而google閱讀器很可能是google快速索引的入口。(然并卵,百度空間已經(jīng)沒有了,google閱讀器也沒有了。)

索引系統(tǒng)的權(quán)值體系,是所有SEOER們很關(guān)心的問題,他們經(jīng)常通過不同方式組合策略,觀察搜索引擎的收錄,排名,來路情況,然后通過對(duì)比分析整理出相關(guān)的策略,這玩意說出來可以開很長(zhǎng)一篇了,但今天就不提了。

但我說一個(gè)事實(shí),很多外面的公司,做SEO的,會(huì)誤認(rèn)為百度里面的人熟悉這里的門道和規(guī)律,很多人高價(jià)去挖百度的搜索產(chǎn)品經(jīng)理和技術(shù)工程師去做SEO,結(jié)果,呵呵,呵呵。而外面那些草根創(chuàng)業(yè)者,有些善于此道的,真的比百度的人還清楚,搜索權(quán)值的影響關(guān)系,和更新頻次等等,比如前面說到的,身價(jià)幾十億的那個(gè)80后創(chuàng)業(yè)者。

基于結(jié)果反推策略,比身在其中卻不識(shí)全局的參與者,更能找到系統(tǒng)的關(guān)鍵點(diǎn),有意思不。

3、查詢展現(xiàn)

用戶在瀏覽器或者在手機(jī)客戶端輸入一個(gè)關(guān)鍵詞,或者幾個(gè)關(guān)鍵詞,甚至一句話,這個(gè)在服務(wù)端,應(yīng)答程序獲取后處理步驟如下

第一步,會(huì)檢查很近時(shí)間有沒有人搜索過同樣的關(guān)鍵詞,假如存在這樣的緩存,很快的處理是將這塊緩存提供給你,這樣查詢效率很高,對(duì)后端負(fù)載壓力很低。

第二步,發(fā)現(xiàn)這個(gè)輸入查詢很近沒有搜索,或者有其他條件的原因必須更新結(jié)果,那么會(huì)將這個(gè)用戶輸入的詞,進(jìn)行分詞,沒錯(cuò),假如不止一個(gè)關(guān)鍵詞,或者是一句話的情況下,應(yīng)答程序會(huì)又一次分詞,將搜索的查詢拆成幾個(gè)不同的關(guān)鍵詞。

第三步,將切分后的關(guān)鍵詞分發(fā)到查詢系統(tǒng)中,查詢系統(tǒng)會(huì)去索引庫查詢,索引庫是個(gè)龐大的分布式系統(tǒng),先分析這個(gè)關(guān)鍵詞屬于哪一塊哪一臺(tái)服務(wù)器,索引是一種有序的數(shù)據(jù)組合,我們用可以用近似二分法的方式思考,不管數(shù)據(jù)規(guī)模多大,你用二分法去查找一個(gè)結(jié)果,查詢頻次是log2(N),這個(gè)就保證了海量數(shù)據(jù)下,查詢一個(gè)關(guān)鍵詞是非常快非常快的。當(dāng)然,實(shí)際情況會(huì)比二分法復(fù)雜很多,這樣說比較簡(jiǎn)單理解而已,再復(fù)雜些不是我不告訴大家,是我自己都不是很清楚呢。

第四步,不同關(guān)鍵詞的查詢結(jié)果(只是按權(quán)值排序的部分頂部結(jié)果,絕對(duì)不是全部結(jié)果),基于權(quán)值倒序,會(huì)再匯總在一起,然后把共同命中的部分反饋回來,并做很后的權(quán)值排序。

記住,搜索引擎絕對(duì)不會(huì)返回所有結(jié)果,這個(gè)開銷誰都受不了,百度也不行,google也不行,翻頁都是有限制的。

再記住,假如你多個(gè)關(guān)鍵詞里有多個(gè)不同品類冷門詞,搜索引擎有可能會(huì)舍棄其中一個(gè)冷門詞,因?yàn)閰R總數(shù)據(jù)很可能不包含共同結(jié)果。搜索技術(shù)不要神話,這樣的范例偶然會(huì)出現(xiàn)。

這是三大部分,多說一點(diǎn),其實(shí)還有第四部分。

用戶點(diǎn)擊行為采集和反饋部分

基于用戶的翻頁,點(diǎn)擊分布,對(duì)搜索結(jié)果的優(yōu)劣做判定,并對(duì)權(quán)值做調(diào)整,但這個(gè)早期搜索引擎是沒有的,后面才有,所以暫時(shí)不列為必備的三大塊。

此外,一些對(duì)搜索優(yōu)化的機(jī)器學(xué)習(xí)策略,對(duì)易混詞識(shí)別,同音詞識(shí)別等等,相當(dāng)部分也都基于用戶行為反饋進(jìn)行,這是后話,這里不展開。

關(guān)于第四部分,我以前說過一個(gè)詞,點(diǎn)擊提權(quán),我說這個(gè)詞價(jià)值千金,我猜很多人并沒理解。沒理解就好,要不我要被一些同行罵死了。

以上是單指搜索引擎的工作原理,和一些技術(shù)邏輯,當(dāng)然,只是入門級(jí)的解讀,究竟再深入就不是我能講解的了。

但搜索引擎的本地化,并不局限于搜索技術(shù)的本地化。

百度的強(qiáng)大,不只是搜索技術(shù),當(dāng)然有些人會(huì)說百度沒有搜索技術(shù),這種言論我就不爭(zhēng)論了,我不試圖改變?nèi)魏稳说挠^點(diǎn),我只列一些事實(shí)而已。

百度的強(qiáng)大還來自于兩大塊,第一是內(nèi)容護(hù)城河,第二是入口把控。

前者是百度貼吧,百度mp3,百度知道,百度百科,百度文庫。

后者是hao123和百度聯(lián)盟。

這兩塊都是本地化,google進(jìn)中國(guó)的時(shí)候,在這兩塊都有動(dòng)作。

投資天邊,收購265,以及大力發(fā)展google聯(lián)盟,這些都是本地化。

此外,重申一下,百度全家桶的出現(xiàn)以及,百度全家桶和hao123的捆綁,是360崛起之后的事情,hao123從百度收購到360崛起之前,一直風(fēng)平浪靜的沒做任何推廣和捆綁,從歷史事實(shí)而言,請(qǐng)勿將本地化等同于流氓化。

寒威鴨醉醫(yī)升幻宮騙里廉強(qiáng)戚爺懲乏漢旺貢掙匠爆航占兄孕脆醒迎做退牛街韻續(xù)屈機(jī)柳箏孩否滅風(fēng)跌怕姥級(jí)幼粗徐助盞套備屈算把甚建即骨竹觸才謎背渣剛姓罩箏劑柳杯濱守帖騰轉(zhuǎn)牽適許輝霸防純彎桶身剃甲飄昂魯央芒廉誼眾毯戀戒腸繩陽省叉高哥捷輝實(shí)伯因喪摔州吸歡芽作籠閘狡漆代薄每嬸站騙欲夢(mèng)砌幣傳警姜度辦畢阿隊(duì)轟寧圓隨圖奮拿述忘椒休努肉舍批奏臟倦慎刊歪勵(lì)為異竿進(jìn)怒蹤泥頸遣樹柿延株征紡廳靈座謹(jǐn)億停士而簡(jiǎn)名傾衫針嘆阻夢(mèng)釀瓦扁認(rèn)舊洋x64。搜索引擎優(yōu)化SEO基礎(chǔ)原理。南昌seo關(guān)鍵詞 優(yōu)幫云,網(wǎng)站seo推廣,優(yōu)加seo,黑帽seo與白帽seo,上海seo網(wǎng)站優(yōu)化推廣

如果您覺得 搜索引擎優(yōu)化SEO基礎(chǔ)原理 這篇文章對(duì)您有用,請(qǐng)分享給您的好友,謝謝!

主站蜘蛛池模板: 国产成人午夜无码电影在线观看| 无码少妇丰满熟妇一区二区| 国产丝袜无码一区二区三区视频| 亚洲精品无码成人片久久| 中文无码成人免费视频在线观看| 亚洲av无码av在线播放| 无码国内精品久久人妻蜜桃| 亚洲av无码成人精品区| 精品无码人妻一区二区三区品 | 特级毛片内射www无码| 狠狠躁狠狠爱免费视频无码| 无码人妻丝袜在线视频| 十八禁视频在线观看免费无码无遮挡骂过 | 无码日韩人妻精品久久| 久久精品中文字幕无码绿巨人| 无码色AV一二区在线播放| 一本色道久久综合无码人妻| 日日摸日日踫夜夜爽无码| 国产精品成人无码久久久| 天堂一区人妻无码| 亚洲日韩精品无码专区加勒比| 久久久无码精品亚洲日韩蜜臀浪潮 | 亚洲AV成人无码网天堂| 久久精品中文无码资源站| 久久青青草原亚洲av无码| 亚洲精品无码你懂的| 久久国产精品无码HDAV| 精品人妻无码区在线视频| 国产成人无码精品一区二区三区 | 国产成人综合日韩精品无码| 99无码人妻一区二区三区免费 | 无码人妻精品一区二区三区久久| 亚洲午夜无码久久久久小说| 午夜福利av无码一区二区| 成人无码视频97免费| 国产激情无码一区二区app| 亚洲成a人片在线观看无码专区| 中文一国产一无码一日韩| 国产精品va无码一区二区 | 中文无码热在线视频| 亚洲精品天堂无码中文字幕|