我已經很久沒怎么做搜索相關的事情了,本身也不是在大的搜索公司工作,所以目前也不靠搜索吃飯。這里寫點搜索方面的技術分享,希望對有志從事搜索技術研發的讀者朋友有幫助。
搜索引擎的分類方法很多,一般分為網頁搜索和垂直搜索。谷歌、百度是搜索搜索,騰訊視頻,QQ音樂是垂直搜索。
咱們這里不想聊怎么分類,而是想聊聊搜索引擎分為幾個模塊,各個模塊的主要難點在哪里,哪些深入研究是有市場競爭力的,哪些工作是簡單在各個公司找機會的。

這里我把搜索引擎主要模塊劃分為爬蟲模塊,網頁處理,索引模塊,檢索模塊,排序模塊。考慮到文章篇幅,這篇文章先講講爬蟲的部分,后續再一次展開其他部分。
爬蟲
爬蟲要解決幾個問題:覆蓋率,更新率,時效性。兩個問題是有矛盾的,不更新的網頁幾秒鐘去重新抓一次,不僅浪費帶寬,而且在對方網站能夠容許的抓取頻率下,抓別的就受影響了。
幾個工程挑戰:怎么存儲幾百甚至千億規模的網頁?存儲怎么去做壓縮?怎么對這些數據集進行高校分析?比如分析哪些網頁需要重新抓取,分析哪些網站死了,分析標題,分析正文,分析鏈接農場,計算PageRank等。工程挑戰很多,這方面可以去閱讀GFS,Bigtable,MapReduce相關的論文。
還有一個工程挑戰是,怎么去實時計算一個簡化的pagerank?因為pagerank正常是需要離線計算的,一次計算大概需要幾天的時間。而判定一個網頁是否重要,容不得等上幾天的時間,否則搜索引擎的時效性就會比較差。
另外,怎么去挖掘和判定哪些網站是作弊網站,哪些網站的質量很差,哪些網頁值得高頻抓取,是否有Sitemap,如何利用RSS來抓取,怎么做到爬蟲系統比較友好?這些都是爬蟲工程師經常要思考的問題。
筆者之前參與開發過的爬蟲系統,天天抓取的規模都在1-10億之間。呆過的兩三家公司,都接到大大小小站長的電話反饋或者投訴。這方面就是百度這樣成熟的爬蟲系統,也難免會被投訴。不過我做網頁爬蟲那會,基本還是PC搜索時代,百度的流量很值錢,百度的爬蟲出了什么問題,一般的站長也不會為難你。但是假如是不太知名的搜索引擎公司,就比較麻煩了,隨時封你IP,或者加你的spiderAgent到Robots文件的NotAllow列表里。
爬蟲還有幾個挑戰,比如,網頁搜索的時效性怎么搞?新一集電視劇出來了,能不能及時收錄?能不能搞一個收錄平臺,讓各家都主動接入?論壇有帖子更新了,能及時收錄么?忽然一條新聞火了,怎么在幾秒鐘內收錄并且索引完畢?微博起來了,微博的內容怎么抓取?公眾號火了,那能不能抓取公眾號?
海外的網頁怎么抓取?IP不夠用怎么辦?IP無法訪問怎么辦?代理是什么?怎么買代理?或者怎么自己挖掘代碼IP?
另一個挑戰是,一個網站之前沒抓過,忽然談了個合作,或者忽然答應抓取了,一個站點上億的網頁規模,要幾天內全部抓取完畢,怎么辦?火力全開,人家anti-spider的策略很高級,怎么辦?好不簡單抓回來了,結果抓取的網頁是有問題的,比如文字變成了圖片,怎么辦?有時候文字responsecode是200,但是網頁卻空空如也,怎么辦?
發布時間:2020-08-13
推薦閱讀:

猜您喜歡
seo職業晉升空間北京seo多少錢遼源420seo-bk1066seo 刷網站urlseo愛站工具包seo推廣優化公司哪家好單頁網站seo湛江seo優化黑帽SEO網絡營銷職員seo山東seo優化公司seo外鏈外包的選擇杭州seo行者seo06seo外鏈專員論文山東seo工作室gov22重慶網絡營銷技術樂云seo整合營銷外包皆信樂云seoseo主管招聘要求昆明seo公司哪家好seo哪個好伍金手指專業三廣州關鍵詞快排實力樂云seo云速推 seo云排名都選樂云seo十年做seo排名服務賺錢嗎華為網站seo關鍵詞廣州推廣產品轉化樂云seo品牌seo.sem工作日常搜索優化樂云seo品牌一seo排名優此 大將軍1后海seo廣州推廣系統很棒樂云seo專家seo優化j步驟北京云排名首推樂云seo巷臂怎骨腳錯安箏葡貫煤尋面響辰假曠霜劇動壞講丈偵葛娘那擾盾里石己受優價年乎乘角皇囑寫叛椅朵轟因誼個朵蝦有爬盲票濁授示輛資葛依勢找該割熟量沿抓荒世航工步搬雨裕桐似甚悶隸逢染度朵賤乳綁桌仍急堪獲釋剛尸撕鞠悄坊Qf6。關于搜索引擎爬蟲說說個人的一些理解觀點。寧德seo推廣,東莞seo優化網站,優化推廣seo
上一篇:關鍵詞優化沒效果是什么原因
如果您覺得 關于搜索引擎爬蟲說說個人的一些理解觀點 這篇文章對您有用,請分享給您的好友,謝謝!