
爬虫学习
71aoo
这个作者很懒,什么都没留下…
展开
-
python-Requests库学习笔记(三)
各个网站都有过滤爬虫的机制,因此,爬虫的伪装就很有必要查看请求头r = requests.get('https://www.***.com/get')r.headers就会看到本机发送的数据,而要修改主要是user-agent请求头伪装主要是在User-Agent处进行修改,主要作用就是伪装成浏览器进行访问。header = {'User-Agent':'Mozilla/5.0...原创 2019-01-17 20:07:56 · 166 阅读 · 0 评论 -
python-requests库设置代理ip格式
使用requests库代理ip设置,官方文档给出的方法是也就是以字典的形式,‘协议’:‘协议://ip:端口’但我发现有些人省掉第二个协议,直接写出 ‘协议’:‘ip:端口’,这种方式是否能正常访问呢?在网上找了几个代理ip试了一下代码如下用了两个网址,一个为http协议,一个为https先测试一下proxy1,是否能正常代理proxy1可以,那proxy3更不要说意料...原创 2019-01-18 16:23:51 · 58441 阅读 · 2 评论 -
python-获得代理ip
使用代理ip,能提高我们的爬虫的效率,花一点时间用python写了爬取代理ip,代理ip网站是西刺的,一页就可以。引入模块import reuqestsimport re获得网页def get_html(): url = 'https://www.xicidaili.com/wt/' # 西刺免费代理IP,http代理ip header = {'User-Agen...原创 2019-01-19 17:00:30 · 233 阅读 · 0 评论 -
python-Requests库学习笔记(一)
师德师风原创 2019-01-15 16:03:00 · 233 阅读 · 0 评论 -
python-Requests库学习笔记(二)
学习了如何使用GET方法打开网页,但我要如何判断是否成功获取一个网页,还是失败?这两者之间有什么不同的回显,除此之外还有其他回显吗?HTTP状态码status_code>>> r= requests.get('https://www.***.com/get')>>> r.status.code200这里返回值是200,代表什么呢?这里给出常见状...原创 2019-01-16 11:55:48 · 269 阅读 · 0 评论