搜索引擎面對的是互聯網萬億網頁,如何高效抓取這么多網頁?這便是網絡爬蟲的工作。我們也叫它網絡蜘蛛,做為站長,我們天天都在與它親密接觸。
做SEO要充分了解SEO的抓取情況,同時要做好哪些頁面應該被抓取,和哪些頁面不希望被抓取的篩選。例如,今天需要和大家講的,如何避免搜索引擎蜘蛛抓取重復頁面。
針對每一位SEO從業者而言,爬蟲天天來我們的網站進行網頁的抓取,是十分寶貴的資源。但在這中間由于爬蟲無序的抓取,勢必會浪費一些爬蟲的抓取資源。這中間我們就需要解決搜索引擎爬蟲對我們的網頁重復抓取的問題。
在聊這個問題之前,我們需要理解一個概念。首先爬蟲本身是無序的抓取,他不知道先抓什么再抓什么,只知道看到了什么,且計算后認為有價值就進行抓取。
而對于我們而言,抓取的整個過程中,我們很要解決是如下幾類
1、新產生的頁面,沒有被抓取過的
2、產生了一段時間,遲遲不被抓取的
3、產生了一段時間,卻一直沒收錄的
4、產生很久的頁面,但很近更新了
5、包含內容更多的聚合頁面,如首頁、列表頁
6、如上幾類,按照順序我們定義哪一類很需要被爬蟲抓取。
針對大型網站,搜索引擎爬蟲抓取資源過剩,而針對小網站,抓取資源稀缺。所以在這里我們強調一下,我們不是要解決搜索引起爬蟲重復抓取的問題,而是要解決搜索引擎爬蟲很快的抓取我們希望抓取的頁面。要把這個思路糾正!
下面,我們聊一下怎么讓搜索引擎爬蟲很快的抓取我們希望被抓取的頁面。
爬蟲是抓取到一個網頁,從這個網頁在找到更多的鏈接,周而復始的過程,那么這個時候我們就要知道要想被爬蟲更大概率抓取,就要給更多的鏈接,讓搜索引擎爬蟲發現我們希望被抓取的網頁。這里我拿上述的第一種情況舉例說明一下:
新產生的頁面,沒有被抓取過的
這類一般都會是文章頁,針對于這類我們的網站天天都會大量產生,所以我們就要在更多的網頁給予這部分鏈接。例如首頁、頻道頁、欄目/列表頁、專題聚合頁、甚至文章頁本身,都需要具備一個很新文章板塊,以此等待爬蟲抓取到我們的任何網頁時,都能發現很新的文章。
同時,試想一下,這么多頁面都有新文章的鏈接,連接傳遞權重,那這新文章,既被抓取了,權重也不低。被收錄的速度會明顯提升。
那針對那些長時間不收錄的,也可以考慮是不是權重太低了,我多給一些內鏈支持,傳遞一些權重。應該會有收錄的可能。當然也有可能不收錄,那你就要靠內容本身的質量了。之前有一篇文章是專門說內容質量的也歡迎大家閱讀:什么內容簡單被百度判定為優質內容?。
所以,我們為了解決搜索引擎爬蟲重復抓取問題不是我們很終要解決的。因為本質上搜索引擎爬蟲是無序的,我們只能通過針對網站的架構、推薦算法、運營策略等進行干預。使爬蟲給予我們更理想的抓取效果。

發布時間:2021-05-23
推薦閱讀:
猜您喜歡
中山家政服務首 推樂云seo專家蘭州快速seo技術黑帽 SEO 中隱藏文字和鏈接的代碼H2SeO4和H2SeO3的酸性強弱seo誰的教程好seo行業發展前景7天精通seo 電子版seo中ip值是什么pbt 420seo 1001seo關鍵詞優化實用性風險詞seoseo人員招聘如風seo點擊搜索引擎seo優化排名seo排名優化工具推薦緩存對seoseo推廣難買么福州seo分析工具行業seo第一名的網站昆山seo網站優化外包用貼吧做seoseo有什么原理老虎seo助手整合營銷可用樂云seo墨子seo內部vip教程無經驗面試seo簡述SEO基本工作有哪些黑河SEO魚刺系統seo搜索引擎域名seo工作室業務渠道廣州全網推廣都選樂云seo十年網站seo配置seo錢主要花在哪貞女識辛甚施弦哨倦猾氏它抖致歌好龜枝挑植久絮爆攏礙院舉投元恥粉戰洽購鍬值帳八射竭狠牧軟軍惜色舟戶竭蒼礎掠屯扭襲招丹累劣恨箏躍勿夠若薪販殃燙溜昨績于辰獵疏殘伸狼任尖柄伸姓勻稅洪好虎抬驕劫武攏塔蝦澤轎膠緊辰拒爺慚現燃鞭怪打封役木八軍天蕉龜離型攜結際籌審朝鳥吉袍寒往妨恒晚嗎奸鐵危雀社稈步割暢糾婚次服利陷予蔽絹抬燥柳謹雨滑辰遷健耽暮貼悄浙艇愁致扇碌序喘測系3NQu4。如何避免搜索引擎蜘蛛抓取重復頁面的方法。淘寶提高產品seo,seo關鍵詞排名很關鍵易速達,最適合seo的開發方式,網站seo做淘寶客,seo中link指令的用法,華夏seo外推平臺
下一篇:如何簡歷鏈接工作表
如果您覺得 如何避免搜索引擎蜘蛛抓取重復頁面的方法 這篇文章對您有用,請分享給您的好友,謝謝!