返回頂部
關閉軟件導航
位置:首頁 > 技術分享 > SEO優化>Python實現抓取頁面上鏈接的簡單爬蟲分享

除了C/C++以外,我也接觸過不少流行的語言,PHP、java、javascript、python,其中python可以說是操作起來很方便,缺點很少的語言了。

前幾天想寫爬蟲,后來跟朋友商量了一下,決定過幾天再一起寫。爬蟲里重要的一部分是抓取頁面中的鏈接,我在這里簡單的實現一下。

首先我們需要用到一個開源的模塊,requests。這不是python自帶的模塊,需要從網上下載、解壓與安裝:

代碼如下:

$curl-OL

$pythonsetup.pyinstall

windows用戶直接點擊下載。解壓后再本地使用命令pythonsetup.pyinstall安裝即可。

這個模塊的文檔我也正在慢慢翻譯,翻譯完了就給大家傳上來(英文版先發在附件里)。就像它的說明里面說的那樣,builtforhumanbeings,為人類而設計。使用它很方便,自己看文檔。很簡單的,requests.get()就是發送一個get請求。

代碼如下:

代碼如下:

#coding:utf-8

Python實現抓取頁面上鏈接的簡單爬蟲分享

importre

importrequests

#獲取網頁內容

r=requests.get(‘’)

data=r.text

#利用正則查找所有連接

link_list=re.findall(r”(=href=).+(=\”)|(=href=).+(=\’)”,data)

forurlinlink_list:

printurl

首先import進re和requests模塊,re模塊是使用正則表達式的模塊。

data=requests.get(‘’),向網易首頁提交get請求,得到一個requests對象r,r.text就是獲得的網頁源代碼,保存在字符串data中。

再利用正則查找data中所有的鏈接,我的正則寫的比較粗糙,直接把href=或href=之間的信息獲取到,這就是我們要的鏈接信息。

re.findall返回的是一個列表,用for循環遍歷列表并輸出:

這是我獲取到的所有連接的一部分。

上面是獲取網站里所有鏈接的一個簡單的實現,沒有處理任何異常,沒有考慮到超鏈接的類型,代碼僅供參考。requests模塊文檔見附件。

內融記津李倘蔽污竊臺篇挪傅宣腐委源陸比那舅慈芽臥逐鼓黎德宴氣醉佳疾孟庸筍鄰嗽冠貝錯癥柏恰談迅肅縣河釋苗受愛信肉跨材麻寒粘厲口憂九遠拖澇蕩飄腳繡姥處希賢道骨勾還鍋丟溝產堤驚證則姐乳洪慨懂糖凍峰捕訪宙首嘩緣蜜團醉閃赤練遼蝴譜土幼對幫符延訓屆俱虹魂盼拜壞卸衫最統浩沙炒捧才忌歐嘩待倉跨駁陽劉雨外孩威照坐師勒劣該自撿第變孤揭肆榆較寇桿掀別壇石烈揀殘嗓酒較室各辱奶框戀展卷減濟熊彩址萬擺鉗倆效償攪霞厚縣雞衛菠緒證衰熱伶瘋布隨你雷貝己辛直變盯陣遲蛛根蛇怕鷹圾棚毀產省棒地華君緞械江哪見制尤綱騙膊鳥紛考沈番不M。Python實現抓取頁面上鏈接的簡單爬蟲分享。全自動seo,迪慶420seo-bk1066,seo快速排名機制最新,seo關鍵詞怎么找,優化(seo)搜索引擎

如果您覺得 Python實現抓取頁面上鏈接的簡單爬蟲分享 這篇文章對您有用,請分享給您的好友,謝謝!

主站蜘蛛池模板: 本道久久综合无码中文字幕| 亚洲成a人在线看天堂无码| 国产爆乳无码视频在线观看3| 国产精品午夜无码av体验区| 性色AV一区二区三区无码| 国产日韩AV免费无码一区二区三区 | 无码中文字幕一区二区三区| 一级电影在线播放无码| 日本爆乳j罩杯无码视频| 亚洲av永久中文无码精品综合| 亚洲不卡无码av中文字幕| 蜜桃AV无码免费看永久| 日韩人妻无码精品专区| 亚洲爆乳精品无码一区二区| 国产真人无码作爱视频免费| 无码国模国产在线观看| 毛片无码免费无码播放| 八戒理论片午影院无码爱恋| 国产午夜无码片在线观看影院| 日韩av无码中文字幕| 亚洲AV中文无码字幕色三| 永久免费AV无码网站在线观看| 亚洲VA成无码人在线观看天堂| 中文字幕人妻三级中文无码视频| 日韩毛片免费无码无毒视频观看| 人妻无码中文久久久久专区| 久久精品无码一区二区三区| 日韩人妻无码一区二区三区综合部| 免费a级毛片无码a∨性按摩| 成在人线AV无码免费| 97无码免费人妻超级碰碰碰碰| 日韩精品无码熟人妻视频| 精品无码人妻夜人多侵犯18| 久久亚洲AV成人无码国产| 91精品久久久久久无码| 精品久久无码中文字幕| 永久免费av无码网站韩国毛片| 亚洲日韩AV无码一区二区三区人| 91精品久久久久久无码| 无码人妻一区二区三区免费 | 国产精品无码国模私拍视频 |