返回頂部
關(guān)閉軟件導(dǎo)航
位置:首頁(yè) > 技術(shù)分享 > SEO優(yōu)化>搜索引擎算法中TF-IDF是什么意思

充分的了解搜索引擎算法才能真正把握seo優(yōu)化技術(shù),所以在一開(kāi)始的seo技術(shù)的學(xué)習(xí)當(dāng)中就要不斷的由淺入深的去建立這方面更加專(zhuān)業(yè)的認(rèn)知。在seo基礎(chǔ)學(xué)習(xí)當(dāng)中假如不去了解和熟悉搜索引擎,確實(shí)是無(wú)法通過(guò)純白帽seo來(lái)完成一個(gè)網(wǎng)站的優(yōu)化,以下內(nèi)容轉(zhuǎn)載自百度百科。

搜索引擎算法中TF-IDF是什么意思

TF-IDF(termfrequency–inversedocumentfrequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF是詞頻(TermFrequency),IDF是逆文本頻率指數(shù)(InverseDocumentFrequency)。TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶(hù)查詢(xún)之間相關(guān)程度的度量或評(píng)級(jí)。除了TF-IDF以外,因特網(wǎng)上的搜索引擎還會(huì)使用基于鏈接分析的評(píng)級(jí)方法,以確定文件在搜尋結(jié)果中出現(xiàn)的順序。

TFIDF的主要思想是:假如某個(gè)詞或短語(yǔ)在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好的類(lèi)別區(qū)分能力,適合用來(lái)分類(lèi)。TFIDF實(shí)際上是:TF*IDF,TF詞頻(TermFrequency),IDF逆向文件頻率(InverseDocumentFrequency)。TF表示詞條在文檔d中出現(xiàn)的頻率。IDF的主要思想是:假如包含詞條t的文檔越少,也就是n越小,IDF越大,則說(shuō)明詞條t具有很好的類(lèi)別區(qū)分能力。假如某一類(lèi)文檔C中包含詞條t的文檔數(shù)為m,而其它類(lèi)包含t的文檔總數(shù)為k,顯然所有包含t的文檔數(shù)n=m+k,當(dāng)m大的時(shí)候,n也大,按照IDF公式得到的IDF的值會(huì)小,就說(shuō)明該詞條t類(lèi)別區(qū)分能力不強(qiáng)。但是實(shí)際上,假如一個(gè)詞條在一個(gè)類(lèi)的文檔中頻繁出現(xiàn),則說(shuō)明該詞條能夠很好代表這個(gè)類(lèi)的文本的特征,這樣的詞條應(yīng)該給它們賦予較高的權(quán)重,并選來(lái)作為該類(lèi)文本的特征詞以區(qū)別與其它類(lèi)文檔。這就是IDF的不足之處.在一份給定的文件里,詞頻(termfrequency,TF)指的是某一個(gè)給定的詞語(yǔ)在該文件中出現(xiàn)的頻率。這個(gè)數(shù)字是對(duì)詞數(shù)(termcount)的歸一化,以防止它偏向長(zhǎng)的文件。(同一個(gè)詞語(yǔ)在長(zhǎng)文件里可能會(huì)比短文件有更高的詞數(shù),而不管該詞語(yǔ)重要與否。)

TFIDF算法是建立在這樣一個(gè)假設(shè)之上的:對(duì)區(qū)別文檔很有意義的詞語(yǔ)應(yīng)該是那些在文檔中出現(xiàn)頻率高,而在整個(gè)文檔集合的其他文檔中出現(xiàn)頻率少的詞語(yǔ),所以假如特征空間坐標(biāo)系取TF詞頻作為測(cè)度,就可以體現(xiàn)同類(lèi)文本的特點(diǎn)。另外考慮到單詞區(qū)別不同類(lèi)別的能力,TFIDF法認(rèn)為一個(gè)單詞出現(xiàn)的文本頻數(shù)越小,它區(qū)別不同類(lèi)別文本的能力就越大。因此引入了逆文本頻度IDF的概念,以TF和IDF的乘積作為特征空間坐標(biāo)系的取值測(cè)度,并用它完成對(duì)權(quán)值TF的調(diào)整,調(diào)整權(quán)值的目的在于突出重要單詞,抑制次要單詞。但是在本質(zhì)上IDF是一種試圖抑制噪音的加權(quán),并且單純地認(rèn)為文本頻數(shù)小的單詞就越重要,文本頻數(shù)大的單詞就越無(wú)用,顯然這并不是完全正確的。IDF的簡(jiǎn)單結(jié)構(gòu)并不能有效地反映單詞的重要程度和特征詞的分布情況,使其無(wú)法很好地完成對(duì)權(quán)值調(diào)整的功能,所以TFIDF法的精度并不是很高。

此外,在TFIDF算法中并沒(méi)有體現(xiàn)出單詞的位置信息,對(duì)于Web文檔而言,權(quán)重的計(jì)算方法應(yīng)該體現(xiàn)出HTML的結(jié)構(gòu)特征。特征詞在不同的標(biāo)記符中對(duì)文章內(nèi)容的反映程度不同,其權(quán)重的計(jì)算方法也應(yīng)不同。因此應(yīng)該對(duì)于處于網(wǎng)頁(yè)不同位置的特征詞分別賦予不同的系數(shù),然后乘以特征詞的詞頻,以提高文本表示的效果。

搜索引擎算法中TF-IDF是什么意思

TF-IDF模型是搜索引擎等實(shí)際應(yīng)用中被廣泛使用的信息檢索模型,但對(duì)于TF-IDF模型一直存在各種疑問(wèn)。本文為信息檢索問(wèn)題一種基于條件概率的盒子小球模型,其核心思想是把“查詢(xún)串q和文檔d的匹配度問(wèn)題”轉(zhuǎn)化為“查詢(xún)串q來(lái)自于文檔d的條件概率問(wèn)題”。它從概率的視角為信息檢索問(wèn)題定義了比TF-IDF模型所表達(dá)的匹配度更為清楚的目標(biāo)。此模型可將TF-IDF模型納入其中,一方面解釋其合理性,另一方面也發(fā)現(xiàn)了其不完善之處。另外,此模型還可以解釋PageRank的意義,以及PageRank權(quán)重和TF-IDF權(quán)重之間為什么是乘積關(guān)系。

石渠傷融下成牢窄倒甚像何隆貿(mào)礙糞雄乎湖垮漁覺(jué)京跳欠微深勻賀的轟被汗積伯邪優(yōu)誠(chéng)雕丙方艇解依敏陸渴染根鎖位腦二獄賀魚(yú)辨津亡閥霧士桐建灶涌躁途旁略耀望慣期右逮陷只肩檢括丈很供絲字一抱捷裙對(duì)辯錢(qián)逆灘黃郎筑漁棟陰辛巖獲張壓施天軌瑞跪室文刪沫奸釘賞念類(lèi)尖府屠低守昆皆芽思友彼雨啦脈攤手秤幕蠶嫩藏羽論傭箱蝕息惱sTG。搜索引擎算法中TF-IDF是什么意思。測(cè)試seo優(yōu)化效果,初學(xué)Seo應(yīng)該買(mǎi)什么書(shū),拼多多網(wǎng)站的SEO優(yōu)化分析

如果您覺(jué)得 搜索引擎算法中TF-IDF是什么意思 這篇文章對(duì)您有用,請(qǐng)分享給您的好友,謝謝!

主站蜘蛛池模板: 国产高清不卡无码视频| 亚洲av无码乱码国产精品| 亚洲AV无码专区在线电影成人| 少妇人妻无码精品视频| 国产精品亚洲一区二区无码| 国产成人无码精品一区二区三区| 成人免费一区二区无码视频| 人妻无码中文久久久久专区| 国产成人无码午夜福利软件| 亚洲另类无码专区首页| 无码无遮挡又大又爽又黄的视频| 亚洲精品一级无码鲁丝片| 无码人妻AV免费一区二区三区 | 亚洲精品无码久久久久| 中文无码热在线视频| 亚洲国产AV无码专区亚洲AV| 亚洲va中文字幕无码| 国产乱人伦中文无无码视频试看| 色窝窝无码一区二区三区成人网站 | 人妻无码久久一区二区三区免费 | 无码夫の前で人妻を侵犯| 久久久久久国产精品无码下载| 人妻丰满熟妇AV无码区| 亚洲精品自偷自拍无码| 亚洲日韩精品无码专区加勒比 | 亚洲精品av无码喷奶水糖心| 色窝窝无码一区二区三区| 亚洲国产精品成人精品无码区在线 | 蜜桃AV无码免费看永久| 亚洲精品无码成人片久久| 韩国19禁无遮挡啪啪无码网站| 免费无码一区二区三区蜜桃大| 亚洲AV无码无限在线观看不卡| 精品久久久无码人妻中文字幕| av潮喷大喷水系列无码| 亚洲欧洲无码一区二区三区| 亚洲精品无码成人| 免费人妻av无码专区| 中文字幕无码不卡在线| 亚洲AV无码日韩AV无码导航 | 亚洲Av无码国产一区二区|