遇到的保存网页的问题

在学习书上用userAgent访问网页的时候,由于遇到的网页是tut-8编码的,保存的时候遇到了问题,之前解决的方法是写文件的时候二进制写入即可,这次因为还有str要写入,想了老久才想到网页可以两次打开来避免这个报错,代码如下



import urllib.request
import userAgent


'''userAgent.py 是个自定义的模块,位置位于当前目录下'''


class urllibModifyHeader(object):
    '''使用urllib模块修改header'''
    def __init__(self):
        #这个是PC+IE的userAgent
        pcUA = userAgent.pcUserAgent.get('360浏览器')
        #这个是Mobile+UC标准 的userAgent
        mbUA = userAgent.mobileUserAgent.get('UC标准')
        #访问新浪网首页
        self.url='http://www.sina.com.cn/'


        self.useUserAgent(pcUA,1)
        self.useUserAgent(mbUA,2)
    def useUserAgent(self,userAgent,name):
        request=urllib.request.Request(self.url)
        request.add_header(userAgent.split(':')[0],userAgent.split(':')[1])
        response = urllib.request.urlopen(request)
        filename = str(name)+'.html'
# 两次打开文件的方式不一样
        fp =open(filename,'w')
        fp.write('%s\n\n' %userAgent)
        fp.close()
        fp =open(filename,'ab')
        html=response.read()
        fp.write(html)
        fp.close()
if __name__ == '__main__':
    umh = urllibModifyHeader()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值