禁止爬虫:模拟浏览器来进行访问,加上headers头部信息。
不加的话通过urlopen,read获取数据会出问题,获取不到数据,相反网站认为你在攻击它。
python2与python3的不兼容_urllib2
网页下载器:将URL对应的网页以HTML下载到本地,用于后续分析 常见网页下载器:Python官方基础模块:urllib2 第三方功能包:requests
python 3.x中urllib库和urilib2库合并成了urllib库。 其中urllib2.urlopen()变成了urllib.request.urlopen() urllib2.Request()变成了urllib.request.Request()
python2中的cookielib改为http.cookiejar.
import http.cookiejar
代替 import cookielib
再次强调:print “hello”;应写为print(“hello”);