#-*-coding:utf-8-*- import urllib #负责url编码处理 import urllib2 import sys import os if sys.getdefaultencoding() != 'utf-8': reload(sys) sys.setdefaultencoding('utf-8') def writeFile(html, filename): """ 作用:保存服务器响应文件到本地磁盘文件里 html: 服务器响应文件 filename: 本地磁盘文件名 """ print "正在存储" + "D://lianxi" with open("D://lianxi//"+filename.encode("GBK"), 'w') as f: f.write(html) print "-" * 20 def tiebaSpider(url, beginPage, endPage): """filename 作用:负责处理url,分配每个url去发送请求 url:需要处理的第一个url beginPage: 爬虫执行的起始页面 endPage: 爬虫执行的截止页面 """ for page in range(beginPage, endPage + 1): pn = (page - 1) * 50 filename = "第" + str(page) + "页.html" # 组合为完整的 url,并且pn值每次增加50 fullurl = url + "&pn=" + str(pn) #print fullurl # 调用loadPage()发送请求获取HTML页面 html = loadPage(fullurl, filename) # 将获取到的HTML页
python:爬取贴吧的某个吧的网页信息
最新推荐文章于 2023-12-26 16:49:36 发布