Python爬虫问题小结1

博客主要解决了爬虫过程中的几个问题。一是解决了 'UnicodeDecodeError' 编码报错,调整代码解码方式;二是解决 'ConnectionResetError' 连接报错,需在 urlopen() 操作后进行 close() 操作;还指出爬虫输入 url 的 headers 需用字典形式。

1.报错“UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte“

解决:

把:result = html.read().decode('utf-8')  #这句话有编码问题

改为:
result = html.read()
result = result.decode('utf-8')
result

2.报错“ConnectionResetError: [WinError 10054] 远程主机强迫关闭了一个现有的连接。”

解决:在后面要有close()操作

因为在前面有urlopen()操作后没有close()操作,容易被认为是攻击行为,连接失败。

3.爬虫时,如果需要输入url的headers,需要用字典形式。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值