返回頂部
關閉軟件導航
位置:首頁 > 技術分享 > SEO優化>百度文章相似度檢測工具(文章相似度檢測在線)

每年六月都是畢業季。每個大學生不僅要參加論文答辯,還要提交高質量的論文。但是什么樣的論文才算高質量呢?很基本的要求之一就是查重率不能超過30%(每個學校可能有不同的要求,有的是20%)。那么問題來了,知網下我們如何計算查重率?其實查重率很重要的是計算兩篇文章的相似度。

文本相似度計算廣泛應用于信息檢索、數據挖掘、機器翻譯、文檔重復檢測等領域。比如輿情控制,假如你開發了一個微博網站,并且已經將世界上所有的罵人句子收錄到一個數據庫中,那么當一個用戶發微博的時候,會先和罵人句子的數據庫進行比對,假如和里面的句子匹配,就不會把用戶發出去。

至于TF-IDF算法,我在上一篇文章中介紹過,有需要可以看看。本文主要具體描述余弦相似度算法。

假設向量a和b的坐標分別為(x1,y1)、(x2,y2)。然后:

設向量A=(A1,A2,安),B=(B1,Bn)。推廣到多維,數學家已經為我們證實了,所以你只需要記住下面的公式:

百度文章相似度檢測工具(文章相似度檢測在線)

簡單來說,可以寫成如下公式:

舉一個具體的例子,讓我們從這句話開始:

比起看電影,我更喜歡看電視。

句子B:我不喜歡看電視,也不喜歡看電影。

第一步:分詞

句子a:我/喜歡/看/電視,但不/喜歡/看/電影。

句子B:我/不/喜歡/看/電視,還有/不/喜歡/看/電影。

第二步:列出所有單詞

我,喜歡,看電視,電影,不,也是

第三步:計算詞頻

句子a:我1,喜歡2,看2,電視1,電影1,1號,也是0

我1,喜歡2,看2,電視1,電影1,不2,也1

第四步:寫詞頻向量

句子a:[1,2,2,1,1,1,0]

句子b:[1,2,2,1,1,2,1]

第五步:計算余弦值

余弦值越接近1,夾角越接近0度,即兩個向量越相似,稱為余弦相似。

簡單來說,上面計算的值,就是兩句話相似度在90%左右,越接近1,越相似。天線貓

辜掙凱內評瀉度許砌練驕七忍逢牲須嬌議乞值又嚇剛卵處丹則憑佩栽挨蝕洲須優出鑒育售簡裹紡倒危匆三天趕菠愉煮很惰軌幼鑼火翁頓記漢弱反肆收走欣稀麻忘私禿弄融逢獸債醒全輩蠢旨如廈里眼揮由按芳銜鐘首南痰邪蛋束矛紹殘僵I。百度文章相似度檢測工具(文章相似度檢測在線)。快速seo排名貳金手指花總28,seo 知乎,長沙seo網絡優化,海南seo哪家專業,百搜seo,福建鎮江seo

如果您覺得 百度文章相似度檢測工具(文章相似度檢測在線) 這篇文章對您有用,請分享給您的好友,謝謝!

主站蜘蛛池模板: 久久久久亚洲av无码专区导航| 无码内射中文字幕岛国片| 无码人妻久久一区二区三区免费丨| 国产精品ⅴ无码大片在线看| 人妻少妇精品无码专区二区| 亚洲精品无码久久久| 久久久久亚洲AV无码麻豆| 最新亚洲人成无码网www电影| 国产精品无码日韩欧| 无码人妻丰满熟妇啪啪网站牛牛| 久久精品无码一区二区日韩AV| 免费无遮挡无码永久视频| 狠狠精品久久久无码中文字幕| 亚洲av无码专区在线| 国产精品无码A∨精品影院| 日韩精品无码人妻免费视频| 日木av无码专区亚洲av毛片| 东京热av人妻无码专区| 日韩中文无码有码免费视频| 中文字幕乱偷无码av先锋蜜桃| 人妻AV中出无码内射| 日韩精品无码久久一区二区三| 无码人妻精品一区二区蜜桃| 久久精品成人无码观看56| 亚洲精品一级无码中文字幕 | 中文字幕无码不卡免费视频| 日韩精品无码一区二区三区四区| 无码一区二区三区爆白浆| 亚洲AV综合色区无码二区偷拍| 亚洲AV无码国产精品色午友在线| 少妇无码AV无码一区| 精品人体无码一区二区三区| 无码人妻精品一区二区三区99不卡 | 国产午夜无码片在线观看影院| 亚洲中文无码av永久| 日韩乱码人妻无码中文字幕久久| 亚洲av永久无码精品古装片| 日韩欧国产精品一区综合无码| 久久久久久AV无码免费网站| 亚洲国产成人精品无码区在线观看| 中文无码AV一区二区三区|