一、感谢以下博客的内容参考
《requests.get为什么得到的内容和查看源文件不一样?》
二、今天突然遇到的问题
——urllib和requests库爬取同一个页面的内容居然不一致?
以百度为例
| urllib | requests |
| import urllib.request re = urllib.request.urlopen("http://www.baidu.com")< |
本文介绍了在使用Python的urllib和requests库爬取同一页面时,发现内容不一致的问题。具体表现为requests获取的内容较少。通过参考其他博客,找到了原因:requests默认不执行JavaScript。解决方案是在requests.get()中添加请求头,模拟浏览器行为,例如设置User-Agent。添加请求头后,代码能正确爬取到与浏览器相同的内容。
《requests.get为什么得到的内容和查看源文件不一样?》
——urllib和requests库爬取同一个页面的内容居然不一致?
以百度为例
| urllib | requests |
| import urllib.request re = urllib.request.urlopen("http://www.baidu.com")< |
400
5576