关于requests这个话题,我昨天给大家展示了requests的入门操作,今天我们来做点更复杂的案例。
我们在昨天的get后面加了:
content.decode('utf-8')
这让r变量返回了网页源码的文本,utf-8是编码方式,如果出错,我们就可以把它改成gbk等编码格式。
但很多网站只会给你一点点,源码却远不止这些,因为它看到你的请求头是爬虫的请求头,所以它就只给你一点点。我们设置一下它就可以了。
关于requests这个话题,我昨天给大家展示了requests的入门操作,今天我们来做点更复杂的案例。
我们在昨天的get后面加了:
content.decode('utf-8')
这让r变量返回了网页源码的文本,utf-8是编码方式,如果出错,我们就可以把它改成gbk等编码格式。
但很多网站只会给你一点点,源码却远不止这些,因为它看到你的请求头是爬虫的请求头,所以它就只给你一点点。我们设置一下它就可以了。