爬虫
weixin_48826751
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python正则表达式的使用
1.限定符和运算符a* 【a出现0次或多次】a+ 【a出现1次或多次】a? 【a出现0次或1次】a{6} 【a出现正好6次】a{2,6} 【a出现2-6次】a{2,} 【a出现2次及以上】(a|b) 【匹配a或者b】(ab) | (cd) 【匹配ab或者cd】2.字符类[abc] 【匹配a或b或c】[a-f] 【匹配a-f之间的字母】[a-fA-F0-9] 【匹配小写a-f,大写A-F和0-9之间的数字】[^0-9] 【方括号中^代表取非,表示匹配非数字字符】3.元字符\d原创 2022-03-26 18:36:45 · 619 阅读 · 0 评论 -
Python协程asyncio基本使用
1.为什么要引入协程?为了要完成异步 IO,就是你发起一个 IO 操作,却不用等它结束,你可以继续做其他事情,当它结束时,你会得到通知。它比线程所消耗的资源更少,往往是构建IO密集型的最佳选择。Python中异步编程需要使用到Asyncio。2.基础概念:(1)Event loop-----事件循环Eventloop可以当作是中央总控,提供了注册、取消、执行任务和回调的方法。我们通过把一些异步函数注册到这个事件循环上,事件循环会循环执行这些函数(注意每时刻只能执行一个函数),当执行到某个函数时,如原创 2022-03-23 17:41:57 · 959 阅读 · 0 评论 -
爬虫中有关验证码的问题处理
在爬虫中,经常要处理登陆的相关事宜,有时候登陆界面会需要提交验证码,如何处理验证码?解决办法:若是自己编写模块,需要涉及深度学习,这就是另一块大的内容了。在这里简单调用已经封装好的模块来实现获取验证码,本文以超级鹰为例,网址:http://www.chaojiying.com1.超级鹰的使用(1)首先注册并登陆,来到用户中心往下拉,可以绑定微信并获得题分(2)点击软件ID->生成一个软件ID,记住你的软件ID及Key(3)点击开发文档->选择Python语言->点击下载(4)解原创 2022-03-11 01:45:21 · 1715 阅读 · 0 评论 -
常见反爬虫方法及其应对策略
1.UA检测即User-Agent检测,是最常见的反爬虫方法。服务器通过确认用户代理是否为真实的浏览器,从而做出接受或拒绝响应请求。解决办法:通过在请求头上添加一个用户代理来伪装成真实的浏览器headers = { "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Safari/605.1.15" } #UA伪装原创 2022-03-10 21:46:06 · 1676 阅读 · 0 评论 -
Python 爬虫数据乱码解决方式
数据乱码大多来自于编码格式不支持中文显示,解决方式主要有如下两个:1.设置对响应对象的编码格式2.设置爬取到的数据编码格式及解码格式原创 2022-03-10 19:38:28 · 7146 阅读 · 0 评论
分享