python爬取贴吧HTML页面内容

最新推荐文章于 2022-09-22 10:59:14 发布

原创

最新推荐文章于 2022-09-22 10:59:14 发布 · 891 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #utf-8

在尝试使用Python爬虫tiebaSpider抓取网页内容时，遇到IOError：[Errno 22] invalid mode ('w') or filename: 'xe7xacxac1xe9xa1xb5.html'。该错误是由于文件名包含非ASCII字符导致的。解决方案是确保文件名只包含ASCII字符或者在保存文件时进行正确的编码转换。

代码如下：
# -*- coding: utf-8 -*-
import urllib2
import urllib
def loadPage(url,filename):
"""
作用：根据url发送请求，获取服务器响应文件
url：所要爬取的url地址
"""
print "正在下载" + filename
headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv2.0.1) Gecko/20100101 Firefox/4.0.1"}
request = urllib2.Request(url,headers=headers)
return urllib2.urlopen(request).read()
def writePage(html,filename):
"""
作用：将html内容写入到本地
HTML：服务器响应的文件内容
"""
print "正在保存" + filename
with open(filename,"w")as f:
f.write(html)
print "-" * 30
def tiebaSpider(url,beginPage,endPage):
"""
作用：贴吧爬虫调度器，负责组合处理每个页面的url
&