
Python爬虫人生
我爬的不是虫,是人生社会百态。
PythonWithCar
汽车行业零部件自动化测试开发。上海恒一汽车技术有限公司。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python爬虫之opener()和hander()
【导读】记录学习爬虫的过程 【主题】Python爬虫之opener()和hander() 【分析】 1.urlopen()方法如何实现的? urllib库请求是通过urlopen()方法实现的。实际上urlopen()方法的底层是使用HTTPHandler和Opener来实现的。 opener是 urllib.request.OpenerDirector 的实例,我们之前一直都在使用的urlope...原创 2020-02-07 00:00:01 · 395 阅读 · 0 评论 -
Python爬虫之伪装浏览器User-Agent
【导读】记录学习爬虫的过程 【主题】Python爬虫之伪装浏览器原理 【分析】 1.创建自定义请求对象的目的,对抗网站的反爬虫机制 2.反爬虫机制1:判断用户是否是浏览器访问(User-Agent) 3.对抗措施1:伪装浏览器进行访问 【注意】 使用request()来包装请求,再通过urlopen()获取页面。单纯使用 urlopen 并不能足以构建一个完整的请求,需要给request一个hea...原创 2020-02-06 22:29:03 · 2265 阅读 · 0 评论 -
Python爬虫之自动创建请求对象
【导读】记录学习爬虫的过程 【主题】构建Python爬虫自定义请求 from urllib import request import re url = r'http://www.baidu.com/' #创建自定义请求对象 req = request.Request(url) pat = r'<title>(.*?)</title>' reponse = request....原创 2020-02-06 20:18:12 · 517 阅读 · 0 评论 -
python爬取网页信息之中文显示
【导读】记录学习爬虫的过程 【主题】将python爬取到网页信息中的中文显示出来 【代码】 from urllib import request url = r"http://www.baidu.com/" #'r'是防止字符转义的 如果路径中出现'\t'的话 不加r的话\t就会被转义 而加了'r'之后'\t'就能保留原有的样子 #发送请求,获取响应信息 reponse = request.u...原创 2020-02-06 18:38:14 · 1236 阅读 · 0 评论