代码如下:
# -*- coding: utf-8 -*-
import urllib2
import urllib
def loadPage(url,filename):
"""
作用:根据url发送请求,获取服务器响应文件
url:所要爬取的url地址
"""
print "正在下载" + filename
headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv2.0.1) Gecko/20100101 Firefox/4.0.1"}
request = urllib2.Request(url,headers=headers)
return urllib2.urlopen(request).read()
def writePage(html,filename):
"""
作用:将html内容写入到本地
HTML:服务器响应的文件内容
"""
print "正在保存" + filename
with open(filename,"w")as f:
f.write(html)
print "-" * 30
def tiebaSpider(url,beginPage,endPage):
"""
作用:贴吧爬虫调度器,负责组合处理每个页面的url
&

在尝试使用Python爬虫tiebaSpider抓取网页内容时,遇到IOError:[Errno 22] invalid mode ('w') or filename: 'xe7xacxac1xe9xa1xb5.html'。该错误是由于文件名包含非ASCII字符导致的。解决方案是确保文件名只包含ASCII字符或者在保存文件时进行正确的编码转换。
最低0.47元/天 解锁文章
1966

被折叠的 条评论
为什么被折叠?



