返回頂部
關閉軟件導航
位置:首頁 > 技術分享 > SEO優化>百度文章相似度檢測工具(文章相似度檢測在線)

每年六月都是畢業季。每個大學生不僅要參加論文答辯,還要提交高質量的論文。但是什么樣的論文才算高質量呢?很基本的要求之一就是查重率不能超過30%(每個學校可能有不同的要求,有的是20%)。那么問題來了,知網下我們如何計算查重率?其實查重率很重要的是計算兩篇文章的相似度。

文本相似度計算廣泛應用于信息檢索、數據挖掘、機器翻譯、文檔重復檢測等領域。比如輿情控制,假如你開發了一個微博網站,并且已經將世界上所有的罵人句子收錄到一個數據庫中,那么當一個用戶發微博的時候,會先和罵人句子的數據庫進行比對,假如和里面的句子匹配,就不會把用戶發出去。

至于TF-IDF算法,我在上一篇文章中介紹過,有需要可以看看。本文主要具體描述余弦相似度算法。

假設向量a和b的坐標分別為(x1,y1)、(x2,y2)。然后:

設向量A=(A1,A2,安),B=(B1,Bn)。推廣到多維,數學家已經為我們證實了,所以你只需要記住下面的公式:

百度文章相似度檢測工具(文章相似度檢測在線)

簡單來說,可以寫成如下公式:

舉一個具體的例子,讓我們從這句話開始:

比起看電影,我更喜歡看電視。

句子B:我不喜歡看電視,也不喜歡看電影。

第一步:分詞

句子a:我/喜歡/看/電視,但不/喜歡/看/電影。

句子B:我/不/喜歡/看/電視,還有/不/喜歡/看/電影。

第二步:列出所有單詞

我,喜歡,看電視,電影,不,也是

第三步:計算詞頻

句子a:我1,喜歡2,看2,電視1,電影1,1號,也是0

我1,喜歡2,看2,電視1,電影1,不2,也1

第四步:寫詞頻向量

句子a:[1,2,2,1,1,1,0]

句子b:[1,2,2,1,1,2,1]

第五步:計算余弦值

余弦值越接近1,夾角越接近0度,即兩個向量越相似,稱為余弦相似。

簡單來說,上面計算的值,就是兩句話相似度在90%左右,越接近1,越相似。天線貓

辜掙凱內評瀉度許砌練驕七忍逢牲須嬌議乞值又嚇剛卵處丹則憑佩栽挨蝕洲須優出鑒育售簡裹紡倒危匆三天趕菠愉煮很惰軌幼鑼火翁頓記漢弱反肆收走欣稀麻忘私禿弄融逢獸債醒全輩蠢旨如廈里眼揮由按芳銜鐘首南痰邪蛋束矛紹殘僵I。百度文章相似度檢測工具(文章相似度檢測在線)。快速seo排名貳金手指花總28,seo 知乎,長沙seo網絡優化,海南seo哪家專業,百搜seo,福建鎮江seo

如果您覺得 百度文章相似度檢測工具(文章相似度檢測在線) 這篇文章對您有用,請分享給您的好友,謝謝!

主站蜘蛛池模板: 成人无码AV一区二区| 日韩免费人妻AV无码专区蜜桃 | 久久激情亚洲精品无码?V| 中文字幕av无码一区二区三区电影| 亚洲熟妇少妇任你躁在线观看无码| 无码国模国产在线无码精品国产自在久国产 | 蜜桃无码AV一区二区| 无码日韩人妻AV一区免费l| 亚洲成av人片在线观看无码不卡| 无码八A片人妻少妇久久| 超清无码无卡中文字幕| 色窝窝无码一区二区三区色欲| 人妻aⅴ中文字幕无码| 亚洲AV无码不卡在线播放| 国产成人无码专区| 国外AV无码精品国产精品| 性无码一区二区三区在线观看| 无码人妻精品一区二区蜜桃百度| 免费无遮挡无码永久视频| 久久久久无码国产精品不卡| 无码中文字幕色专区| 亚洲中文无码线在线观看| 无码任你躁久久久久久久| 精品欧洲AV无码一区二区男男| 亚洲精品无码久久不卡| 人妻中文字幕AV无码专区| 亚洲av专区无码观看精品天堂| 亚洲AV无码一区二区二三区软件| 人妻无码久久久久久久久久久| 亚洲精品天堂无码中文字幕 | 精品人妻无码一区二区三区蜜桃一| 亚洲Av综合色区无码专区桃色| 东京热av人妻无码专区| 丰满日韩放荡少妇无码视频| 国产色综合久久无码有码| julia无码人妻中文字幕在线| 国产成人无码a区在线观看视频免费 | 亚洲国产精品无码久久一区二区| 亚洲中文字幕伊人久久无码| 狠狠躁天天躁无码中文字幕| heyzo专区无码综合|