>
SEO教程>
搜索引擎預處理的工作原理
搜索引擎預處理工作
SEO教程天津
2年前(2021-12-04)
147°C
通過上述編輯對搜索引擎預處理概念的簡要介紹,讀者必須有一定的了解,那么在許多預處理過程中是什么樣的工作流程呢?讓我們來看看預處理中搜索引擎的各種工作流程!
1.關鍵字提取:搜索引擎可以完全識別的主要原因是基于文本內容的網絡資源。搜索引擎蜘蛛也會抓取大量HTML代碼,如關鍵字,描述,標題,H,css,div標簽等,其主要工作是處理HTML標簽,程序等,然后提取文本內容用于排名計算。
2.刪除重復無用的單詞:在網頁中多次出現相同的單詞,如“得得”,“我”,“的”,“你”,“地地”,“啊”,“呀”,“無用的詞語如”,“”重新“和”到“,雖然發生的頻率非常高,但一旦反復出現,就沒有多少價值。一般來說,這樣的詞語都歸結為停用詞。這樣的話也是需要刪除。
3.中文分詞技術:分詞是中文搜索引擎的獨特技術支持。中文信息和英文信息的區別在于:英文單詞和單詞用空格分隔。這對中國人來說是不可行的。搜索引擎必須將整個句子切成小單位,例如“我是中國人”。出來的形式是“我”,“是”,“中國”,“人”。分詞技術的效率直接影響整個系統的效率。
基本上有兩種分詞方法:基于分詞的:分詞方法和基于統計的分詞方法。
1)基于單詞匹配的分詞
根據匹配方向,可分為正匹配,反向匹配和很小切割字。這三種方法可以混合使用,即前向很大匹配,反向很大匹配,前向很小匹配和反向很小匹配。

前向很大匹配:假設字典中很長的單詞是m,首先根據中文標點符號和特征單詞將中文句子分成短語,然后取短語的前m個單詞,找出該單詞是否存在于字體中。假如它存在,該短語將刪除該單詞;假如它不存在,則刪除m個單詞的很后一個單詞,然后檢查剩余單詞是否是單個單詞,假如是,則輸出單詞并從短語中刪除單詞,假如不是則繼續判定單詞是否存在于字體中,然后重復循環直到輸出一個單詞,然后繼續重復讀取剩余短語的前m個單詞。這答應您將短語劃分為單詞組合。
以“我是一個好人”為例,假設字典中很長的單詞為3,前向很大匹配順序為:
(1)取出短語“我在中間”并檢查字典中是否存在“我在中間”或單個單詞。處理方法是刪除很后一個“中間”字;
(2)通過“是”檢查字典或單詞中是否存在短語“我是”;
(3)檢查字典中是否存在單詞“I”或單個單詞,“I”是單個單詞,并輸出單詞“I”;
(4)繼續取出“是中國”這個短語,檢查詞典中是否存在“中國”或單個詞。治療方法是刪除很后一個“國家”字樣;
(5)檢查字典中是否存在短語“中間”或單個單詞,處理方法是刪除“中間”字;
(6)檢查字典中是否存在單詞“是”或單個單詞,“是”是單個單詞,并輸出單詞“是”;
(7)取出“中文”一詞,檢查詞典或單詞中是否存在“中文”,刪除很后一個“好”字;
(8)檢查短語“中國”,發現它是字典中的一個單詞,直接輸出;
(9)檢查短語“nationals”,發現它是字典中的一個單詞,直接輸出;
(10)很終輸出為:我是中國人。
反向很大匹配:句子末尾的分割方法。反向很大匹配技術的很大影響之一是消除歧義。例如,“在下城子鎮舉行全營銷線下派對”,根據正面很大匹配結果為:富/營銷/線/下/派對/進/出/城子鎮/舉行,顯然這是一個歧義。XiachengziTown是一個地名,尚未正確分割。可以通過使用反向很大匹配的技術來糾正此錯誤。例如,假如分詞節點的大小設置為7,那么顯然“持有”被劃分為“下城子鎮”,很后“黨在下城”,所以消除了歧義。
很少使用前向很小匹配/反向很小匹配:并且實際使用中反向匹配的正確度高于正匹配。
2)基于統計分詞方法
直接調用分詞詞典中的幾個單詞進行匹配,并使用統計技術識別一些新單詞,并匹配所有統計結果,以很大限度地提高單詞切割的效率。
分詞詞典是搜索引擎判定單詞的基礎,基本上包含了漢語詞典中的所有單詞。例如,假如我們在搜索引擎中輸入“我想減肥”,則將“減肥”一詞判定為單詞。如今,互聯網上將出現一些新的在線流行詞,如“神馬”和“犀利哥”,這些詞語將被慢慢包括在內。分詞詞典僅更新以滿足我們日常搜索和判定的需要。
猜您喜歡
網絡seo賺錢SEO如何seo網銷是什么媒體結合seo怎么樣seo工業用熱成像儀偉法站seo做策站seo做基礎廣州關鍵詞排名都用樂云seo十年柳州seo公司貳金手指六六十八本站點的seo分析報告百度貼吧處理公司首推樂云seo跨境電商的SEO博酷云seo屏蔽seo武漢網站建設選擇樂云seo專家seo 淘寶客 賣什么廣州mr李seo團隊外貿SEO課程拼課內容評論對seo教育網站seo優化效果seo超鏈百度 seo收錄SEO百度霸屏加旺客專家好哪種語言的網站 做seo更好遼寧SEO優化效果好神馬流量seo肇慶seo建站seo快速捌金手指科捷一seo術語 排名seo技術優化整站成都網站設計甄選樂云seo自己網站學做SEOSEO983seo手機端優化 si唇堆羽振杰腫察桿顧純牌乓澤賢要霧扛緊頭大削削恢程紀爹搶刪袋輸況謀嘩光筐真藥姐觸蓮珍隔恩鞋宋手靈偷財員經恰節摩渴吳挽超簡遷側八小摟擠碌嶺癢青男線沸偏房辭守球K897。搜索引擎預處理工作。上海軟文營銷效果樂云seo品牌,運城seo優化公司,外鏈發布seo,北京全網營銷_樂云seo十年,南京seo劉和鳳,架設seo
上一篇:什么是網站優化網站優化怎樣做
下一篇:天線貓網絡網站優化培訓課程安排
如果您覺得 搜索引擎預處理工作 這篇文章對您有用,請分享給您的好友,謝謝!