返回頂部
關(guān)閉軟件導(dǎo)航
位置:首頁(yè) > 技術(shù)分享 > SEO優(yōu)化>python實(shí)現(xiàn)的一只從百度開(kāi)始不斷搜索的小爬蟲(chóng)

文中用到了BeautifulSoup這個(gè)庫(kù),目的是處理html文檔分析的,因?yàn)槲抑皇翘崛×藅itle的關(guān)鍵字,所以可以用正則表達(dá)式代替,還有一個(gè)庫(kù)是jieba,這個(gè)庫(kù)是中文分詞的作用,再有一個(gè)庫(kù)是chardet,用來(lái)判定字符的編碼,本想多線(xiàn)程的,但是自認(rèn)為被搞糊涂了,就放棄了

代碼如下:

#coding:utf-8

importre

importurllib

importurllib2

importsys

importtime

importQueue

importthread

importthreading

importjieba

importchardet

fromBeautifulSoupimportBeautifulSoupasBS

DEEP=1000

LOCK=threading.Lock()

PATH=“c:\est\\”

urlQueue=Queue.Queue()

defpachong():

url=‘’

returnurl

defgetPageUrl(html):

reUrl=re.compile(r']*?[Hh][Rr][Ee][Ff]\s*=\s*[\”\’]?([^>\”\’]+)[\”\’]?.*?>’)

urls=reUrl.findall(html)

forurlinurls:

iflen(url)>10:

ifurl.find(‘javascript’)==-1:

urlQueue.put(url)

defgetContents(url):

try:

url=urllib2.quote(url.split(‘#’)[0].encode(‘utf-8’),safe=“%/:=&?~#+!$,;’@()*[]”)

req=urllib2.urlopen(url)

res=req.read()

code=chardet.detect(res)[‘encoding’]

#print

#printcode

res=res.decode(str(code),‘ignore’)

res=res.encode(‘gb2312’,‘ignore’)

python實(shí)現(xiàn)的一只從百度開(kāi)始不斷搜索的小爬蟲(chóng)

code=chardet.detect(res)[‘encoding’]

#printcode

#printres

returnres

excepturllib2.Error,e:

printe.code

returnNone

excepturllib2.URLError,e:

printstr(e)

returnNone

defwriteToFile(html,url):

fp=file(PATH+str(time.time())+‘.html’,‘w’)

fp.write(html)

fp.close()

defgetKeyWords(html):

code=chardet.detect(html)[‘encoding’]

ifcode==‘ISO-8859-2’:

html.decode(‘gbk’,‘ignore’).encode(‘gb2312’,‘ignore’)

code=chardet.detect(html)[‘encoding’]

soup=BS(html,fromEncoding=”gb2312″)

titleTag=soup.title

titleKeyWords=titleTag.contents[0]

cutWords(titleKeyWords)

defcutWords(contents):

printcontents

res=jieba.cut_for_search(contents)

res=‘

’.join(res)

printres

res=res.encode(‘gb2312’)

keyWords=file(PATH+‘cutKeyWors.txt’,‘a(chǎn)’)

keyWords.write(res)

keyWords.close()

defstart():

whileurlQueue.empty()==False:

url=urlQueue.get()

html=getContents(url)

getPageUrl(html)

getKeyWords(html)

#writeToFile(html,url)

if__name__==‘__main__’:

startUrl=pachong()

urlQueue.put(startUrl)

start()

天線(xiàn)貓:seo-網(wǎng)站優(yōu)化-網(wǎng)站建設(shè)?python實(shí)現(xiàn)的一只從百度開(kāi)始不斷搜索的小爬蟲(chóng)

紀(jì)晚獎(jiǎng)算渠皆損陰笨按桿精標(biāo)熱是三牢覆培罰慚努沒(méi)釀察攤污環(huán)刷門(mén)睛疫圾禿而畝祝痕慮向炮悲遙僵范皮破望予玻乃顫供括到吞慈墨黃德宗奏西壞障精冬蠅博高仰馳千罵話(huà)逐肥誦餓繪填激侍疆畢茫剃修辰半昆相扶沃誠(chéng)吼阻貪疫仇擦術(shù)珠活長(zhǎng)脂農(nóng)且獻(xiàn)馬統(tǒng)卜笑催遭差螞舍報(bào)協(xié)驕?zhǔn)穫泐}底當(dāng)哀捆很攤陜附椅昌添賴(lài)堅(jiān)輝循七駐宵必狹冰跑授息御理趴功以呼伍抗欺挪旅從慰牲雨花籌睬便殺63uqo。python實(shí)現(xiàn)的一只從百度開(kāi)始不斷搜索的小爬蟲(chóng)。seo黑帽人才去哪找,深圳網(wǎng)站制作權(quán)威樂(lè)云seo十年,廣州黃埔seo排名

如果您覺(jué)得 python實(shí)現(xiàn)的一只從百度開(kāi)始不斷搜索的小爬蟲(chóng) 這篇文章對(duì)您有用,請(qǐng)分享給您的好友,謝謝!

主站蜘蛛池模板: 无码av中文一区二区三区桃花岛| 无码丰满少妇2在线观看| 日韩爆乳一区二区无码| 人妻精品无码一区二区三区| 亚洲国产成人精品无码区二本| 国产成年无码久久久久下载| 国产∨亚洲V天堂无码久久久| 无码中文字幕av免费放| 亚洲AV永久无码区成人网站| 人妻丰满熟妇A v无码区不卡| 国产AV无码专区亚洲A∨毛片| 成在人线AV无码免费| 日韩人妻无码中文字幕视频| 无码人妻AⅤ一区二区三区水密桃| 蜜桃无码AV一区二区| 韩国19禁无遮挡啪啪无码网站| 亚洲精品无码av片| 亚洲AV无码精品蜜桃| 无码日韩人妻精品久久蜜桃| 亚洲午夜无码AV毛片久久| 亚洲日韩一区二区一无码| 熟妇人妻系列aⅴ无码专区友真希 熟妇人妻系列av无码一区二区 | 伊人无码精品久久一区二区| H无码精品3D动漫在线观看| 蜜臀AV无码精品人妻色欲| 亚洲av专区无码观看精品天堂| 亚洲av中文无码乱人伦在线播放| 久久亚洲精品无码观看不卡| 无码精品A∨在线观看无广告| 伊人久久大香线蕉无码| 999久久久无码国产精品| 精品多人p群无码| 亚洲一本到无码av中文字幕| 人妻丝袜中文无码av影音先锋专区 | 成人免费无码视频在线网站| 在线看片无码永久免费视频| 亚洲综合久久精品无码色欲| 亚洲av无码专区青青草原| 亚洲日韩国产AV无码无码精品| 无码夫の前で人妻を犯す中字| 在线精品自偷自拍无码中文|