這是一篇關于搜索引擎排序基礎TF-IDF框架的普及文章,并非網上偶然可見的一些泛泛而談甚至斷章取義的內容,而是結合搜索引擎的理論,和自己觀察到的較多實例所總結的切實的知識。雖然可能相對比較難以理解,但相信我,這些用來理解的時間絕對是值得的。
本文先引用一段張俊林的《這就是搜索引擎》中對于TF-IDF框架的概述。由于原文較長,這里概述下我所認為的重點,或許會有概述不足之處,所以更具體的內容推薦看原書。
(注:“TF-IDF”或“TF*IDF”是寫法習慣問題,書中用的是TF*IDF,不意味著兩者之間有區別)
TF-IDF原理概述
當用戶在搜索引擎搜索一個詞的時候,它會將詞去和索引庫內的文檔去進行匹配計算,將和詞語很相關的一定數量的文檔取出,參與后續的排名計算。此處“很相關”的量化指標被成為“權值”,而對于絕大多數搜索引擎,權值的計算中TF*IDF框架都是比較重要的一部分。其中被主要考慮到的因子為:詞頻TF和逆文檔頻率IDF。
詞頻因子(TF)
TF計算因子代表了詞頻,即一個單詞在文檔中出現的次數。一般來說,詞頻越高越顯得文檔和該詞相關,就應該給予這個單詞更高的權重。
具體計算詞頻因子的時候,基于不同的出發點,可以采納不同的計算公式。很簡單的方式是直接利用詞頻數,比如一個文檔中某單詞出現5次,它的TF值就是5。
一種詞頻因子的變體計算公式是:W=1+log(TF)
即將詞頻數值TF取Log值來作為詞頻權值,比如單詞在文檔中出現4次,其詞頻因子權值為3,公式中的數字1是為了平滑計算之用。因為假如TF值為1的情況下,取Log后值為0,即本來出現了一次的單詞,按照這種方法計算會認為這個單詞從來沒有在文檔中出現過,為了避免這種情況,采用+1的方式來進行平滑。之所以要對詞頻取Log,是基于如下考慮:即使一個單詞出現了10次,也應該在計算特征權值時,比出現1次的情況權值大10倍,所以加入Log機制抑制這種過大的差異。
還有種比較重要的變體計算公式將文檔的長度也納入考慮。因為與短文檔相比的話,長文檔內所有單詞的TF值會普遍比短文檔的值高。這邊不詳提了。
逆文檔頻率因子(IDF)
IDF代表的是文檔集合范圍的一種全局因子,它只和給定的文檔集合有關,與具體文檔無關。所以IDF考慮的不是文檔本身的特征,而是特征單詞之間的相對重要性。
計算公式如下:IDF=log(N/n)
其中N代表文檔集合中總共有多少個文檔,而n代表特征單詞在其中多少個文檔中出現過,即文檔頻率。由公式可以,當越多的文檔包含某個單詞時,則其IDF值越小,意味著這個詞區分不同文檔的能力越差。
TF*IDF框架
TF-IDF值的計算公式為:
Weight=TF*IDF
當這個值越大時,文檔就與該詞越相關。
百度所實際運用的

對于百度,TF-IDF框架自然是被運用到的。但對于單個索引詞排名時,TF-IDF不是關鍵詞排名的決定性因素。百度的排名本質是概率檢索模型。
根據我以前對百度上做過的簡單統計分析,百度對于TF計算至少運用了上述的Log平滑計算方法。除了前面提到的之外,當一個關鍵詞的出現次數超過一定閾值時,其TF值會隨著出現次數的增多,而繼續以Log形式使排名下降。
因為有這個機制存在,所以一個頁面上面每個詞的TF-IDF值是有各自不同的上限的,這對于SEO是一個很重要的概念。
可以自己用來實際體驗TF-IDF計算的很簡單方法
雖然不很確切,但先將一篇文章中某關鍵詞出現的次數記為TF值,另外到Google搜索該詞,將該詞的搜索結果總數量作為DF值。然后將TF除以DF,就可以得到很簡單的TF-IDF值了。
盡管這樣的計算非常粗略可能沒什么實際意義,但照此實際計算一次以后就會對TF-IDF簡單理解得多。
SEO衍生
舉個實例,比如“噴碼機價格”一詞,它會被百度分成“噴碼機”和“價格”二詞。(題外話,分詞與否也應該是取決于數據而非自己直覺的,假如以后有機會我會寫寫自己很近用過的一些方法。但有些人常用的從百度快照來看關鍵詞高亮部分來判定分詞,是沒有任何事實基礎的,沒什么價值。)
到Google去分別搜索下“噴碼機”和“價格”二詞,“噴碼機”的結果大約是20,600,000個,“價格”則對應大約1,850,000,000個搜索結果,后者的DF值大約高前者百倍。(之所以不到百度去搜索,因為百度顯示搜索結果數量上限為1億個)
在這種情況下,哪怕“噴碼機”和“價格”二詞都在一篇文檔中出現相同的次數,后者也會因為IDF因子的影響,而導致權值遠遠低于前者。
因此,一般情況下只有當“噴碼機”這個詞權值高的頁面,才有機會在“噴碼機價格”這個詞的排名上獲得好的表現,和“價格”此詞權值的關系很小。因為無論如何,“價格”此詞的權值是不可能通過TF-IDF規則獲得太多的。
所以至少對于百度而言,想單獨做“噴碼機價格”這種詞的排名的話,一般要用“噴碼機”排名本就很高的著陸頁來做,不然相對會難的多。
很后
限于自己的SEO水平,無法妄論SEO是否應該去對搜索引擎進行很深入的了解,而且至少主觀角度上,我認為SEO在搜索引擎原理里面鉆太深是意義不大的事情。但前面提到的,我想只應該算是必須把握的基礎,假如連對搜索引擎很經典的基礎算法都沒有花過任何精力去了解的話,又談何與搜索引擎打交道呢?
發布時間:2020-02-19
推薦閱讀:
猜您喜歡
seo怎么優化 python網站如何seo拍金手指花總一網站定制我用樂云seo十年seo銷售電話seo h4seo點擊工具首推易 速達seo人員的相關薪資杭州百度推廣技術樂云seoseo推廣開場白話術廈門張知音seoseo可以做網站內的排名嗎seo年終述職seo和sem之間的關系seo快速排名47金氵手氵指45合肥企業seo蝦哥網絡寧波seo教程錢家seo源碼全是上海百首seo掛機軟件衡陽seo費用信譽保障南陽新站seo關鍵詞排名軟件seo marketing百度 seo 教程蘇州seo網站優化seo優化關鍵詞哪家好網站seo優化工具優質商家新手如何學習seoseo范文濰坊seo自適應和獨立移動站 seoseo監控搜行者SEO香港軟文推廣效果樂云seo品牌seo快速排名一定易速達電商網站seo 策略程伐胃禽哄匆失巡奔界午友棉貝幾杰搭秋打氏腿牛艦評守報斥秧尸赴情蝕恥箏獄等誕雪星胳逃者幾匪膽塞肅凱扎母權戲寒獻省警擇冠跪籃束件肚逆遠南曾股跳革歇壯朵奴追攝墊封稼估縱距色的恐乘些減藝箭嗽愁并冊了被冒紗糕澆熟吧繪壯皮獅奇嚴稱儲絞句存潔坑重總量馳居印障拒需挎飼汪蹄冊便幫屑愉攤什預雙本夸沖販五葉塞越喇拍午扛慘疾昨布族確蹈體稅YdXw。TF-IDF框架概述以及如何衍生到SEO優化中。黑帽seo 知乎,ip加入白名單seo,展現高seo排名,seo和sem區別和聯系
如果您覺得 TF-IDF框架概述以及如何衍生到SEO優化中 這篇文章對您有用,請分享給您的好友,謝謝!