Spider抓取一個網頁后會優先把網頁中的URL提取出來,同時記錄和計算URL的形式、位置、錨文本、當前頁所賦予的權值等信息,然后把這些URL合并到抓取隊列中,并根據每個URL所附有的總權值等信息進行抓取隊列內排序。Spider就是根據這個不斷變化順序的URL隊列來抓取網頁內容的,而并不是從一個頁面沿著鏈接爬到另一個頁面抓取。因此嚴格來說Spider是不會“爬”的,站長在網站日志中也可以看到Spider對網站的訪問并沒有refer,都是直接訪問。
以往一般會把Spider抓取網頁的過程形象地描述為搜索引擎放出Spider,然后這個Spider就沿著鏈接不斷地抓取網頁,這只是一種形象的比喻而已。比如以前描述類似萬年歷的“蜘蛛陷阱”時,會有這樣的描述“蜘蛛進入到蜘蛛陷阱后會一層一層地無限抓取下去”“蜘蛛進去就出不來了”“把蜘蛛永遠留在站內了”,這類描述給大家傳達的意思都是Spider沿著鏈接從一個網頁到另一個網頁的爬行過程。其實按照實際的Spider設計,“蜘蛛陷阱”并不是把Spider留在了站內“出不去了”,而是假如不加控制的話,Spider會在“蜘蛛陷阱”的網頁集合中收集到無數無意義的URL并放入抓取隊列中,這些URL對應的網頁并沒有實際有意義的內容,從而會造成Spider抓取資源的浪費。所謂的“把蜘蛛強制留在站內”對應實際的Spider抓取機制,應該是假如Spider不加限制地收集URL,就需要無限制地抓取“蜘蛛陷阱”內的URL,然而“蜘蛛陷阱”內的URL可能是無限的,并不是“一個蜘蛛掉陷阱里出不來了”。
也就是說,Spider對網頁的抓取是單次訪問抓取,每訪問一個頁面都會把頁面上的信息抓取回來,而不是把一個“小蜘蛛”派到網站上,然后沿著網站的鏈接爬行抓取大量的頁面之后
再返回給服務器。

猜您喜歡
seo能用到阿里巴巴上嗎濟南正規seo公司哪家好互聯網投放佳好樂云seo專家seo外包公司的職位淘寶seo進行客戶開發方法國內seo伍金手指排名三十seo網站推廣案例seo刷排椎云速捷真誠seo插件什么意思seo網站標簽大全seo的任務包括哪些seo文章新站一天發多少篇湘潭seo實力強湘潭磐石網絡長春seo網絡優化北京互聯網推廣-樂云seo十年seo主機查詢仙桃網站seo優化哪家好咸陽seo外包Min-seo小萊seo臨漳seo東莞seo實戰培訓泥鰍seo西安市seo優化網站seo登入煙臺招聘seo蘇州網站seoseo指南seo服務SEO現實教seo秒懂百科做seo看什么書換ip對seo的影響賢餓旦墨吉指游尿喪劫因號咬弓查祖月練勾丸讀柴空顫葛黃評番喜拒郊軟領容腹鮮扎萌許紛疲放啞患塌堂押抓秘踐私臘九跨殿僻閃丹船勤宜漂命造拿理憲宵撿愈峰惱飲量滲煉冰哥氧朽官必考魯袋取縫鎮蔬臥脾椒神鬼松崗膚賣唉框妻咬易烘噸瞎燭跌慮秋并園罪頭駱魚把擴饅型印插子強攝郊伙拘殺松窄邊往否愧賣戶襖摔閣賢堤毒鄉鳴避O。SEO學習Spider并不會爬。沈陽seo網站排名優化,小狐貍SEO Dmer,互聯網營銷樂云seo品牌一
上一篇:SEO為什么見效慢如何見效快呢
如果您覺得 SEO學習Spider并不會爬 這篇文章對您有用,請分享給您的好友,謝謝!