代碼如下:
#-*-coding:UTF-8-*-
”’
Createdon2021-12-5

@author:good-temper
”’
importurllib2
importbs4
importtime
defgetPage(urlStr):
”’
獲取頁面內容
”’
content=urllib2.urlopen(urlStr).read()
returncontent
defgetNextPageUrl(currPageNum):
#頁碼-1-1-72-4137-33.html
url=u’‘+str(currPageNum+1)+’-1-1-72-4137-33.html’
#是否有下一頁
content=getPage(url);
soup=bs4.BeautifulSoup(content)
list=soup.findAll(‘span’,{‘class’:’next-disabled’});
if(len(list)==0):
returnurl
return”
defanalyzeList():
pageNum=0
list=[]
url=getNextPageUrl(pageNum)
whileurl!=”:
soup=bs4.BeautifulSoup(getPage(url))
pagelist=soup.findAll(‘div’,{‘class’:’p-name’})
foreleminpagelist:
soup1=bs4.BeautifulSoup(str(elem))
list.append(soup1.find(‘a’)[‘href’])
pageNum=pageNum+1
printpageNum
url=getNextPageUrl(pageNum)
returnlist

defanalyzeContent(url):
return”
defwriteToFile(list,path):
f=open(path,‘a’)
foreleminlist:
f.write(elem+’
’)
f.close()
if__name__==‘__main__’:
list=analyzeList()

print‘共抓取’+str(len(list))+’條
’
writeToFile(list,u’E:\\jd_phone_list.dat’);
轉載請注明:seo-網站優(yōu)化-網站建設?python抓取京東商城手機列表url實例代碼
文章地址:http://www.meyanliao.com/article/online/12705.html

- 1互聯(lián)網對傳統(tǒng)企業(yè)的沖擊有多大
- 2美團再因不正當競爭敗訴新反法互聯(lián)網專條首次適用外賣領域!
- 32021互聯(lián)網十件大事對不起賈躍亭你只能排第四
- 4互聯(lián)網宣傳做的就是用戶體驗
- 5互聯(lián)網創(chuàng)業(yè)到底需要怎樣的能力
- 6適合上班族的25個副業(yè)(適合上班族的互聯(lián)網副業(yè))
- 7互聯(lián)網的世界沒有永遠的敵人只有永遠的利益
- 8押唄進駐天線貓助力互聯(lián)網數(shù)碼產品寄存行業(yè)經濟持續(xù)發(fā)展
- 9互聯(lián)網公司如何做好品牌定位
- 102021年互聯(lián)網金融發(fā)展回顧冬去春欲來改弦當更張