
爬虫
文章平均质量分 91
梓栋Code
这个作者很懒,什么都没留下…
展开
-
网络爬虫的秘密:百度翻译加密参数破解
一、小试牛刀在上课的时候,百度翻译之前的那个简单的接口,需要你多次尝试之后才能出来,其实只要我们打开network中的XHR就可以查看到。步骤1:浏览器打开:fanyi.baidu.com, 按键顺序 F12>>>Network>>>XHR。步骤2:输入job(在输入过程中会不断请求服务器),例如输入"j"时请求,”jo“时请求,"job"时也在请求,如下图:步骤3:点开第3个我们可以看到url、请求方式、和请求数据。步骤4:我们开始写爬虫程序。由于我们原创 2021-03-21 11:47:39 · 2624 阅读 · 3 评论 -
Python使用selenium模拟登陆,截取图片验证码并转化为base64
研究好几天截取图片验证码,今天终于好了,主要图片验证在第二个iframe里面,所以在截取的时候,必须先定位最外面的iframe的坐标(简称frame1),然后在定位嵌套里面的iframe(简称frame2),在定位图片验证码在frame2中的位置,相加获取图片验证码的位置 frame1_location = self.driver.find_element_by_id("ICB...原创 2019-10-11 10:06:47 · 3125 阅读 · 0 评论 -
Python爬虫处理网页弹框的几种方式,你一定需要!
在项目开发的时候,要处理弹框,现在将几种处理弹框的方式总结一下:第一种:浏览器式弹框处理这种主要使用于网页驱动浏览器的弹框def deal_elert_window(self): """ # 处理elert 弹窗 如果账号密码输入错误的就不会出现elert弹窗 :return: """ try: # 等待alert弹出框可见,这...原创 2019-10-24 14:42:52 · 7570 阅读 · 0 评论 -
Chrome开发者工具(DevTools)使用技巧
Chrome开发者工具(DevTools)使用技巧202019.08.22 00:24:42字数 1343阅读 29289大功能面板Elements元素面板:检查和调整页面,调试DOM和CSSNetwork网络面板:调试请求,了解页面静态资源分布,网页性能检测Console控制台面板:调试JavaScript,查看日志,交互式代码调试Sources源代码资源面板:调试JavaScri...转载 2019-10-13 09:22:24 · 9025 阅读 · 0 评论 -
爬虫项目:用selenium模拟登陆后,用requests的Session维护一个会话爬取数据
好久没写博客了,由于工作忙,今天也是账号有问题,解决不了问题,那就把我遇到问题总结一下,方便大家查阅。最近遇到一个很头疼问题,就是用selenium模拟登陆账号之后,要获取数据,最让人头疼的是这个网站的cookie是会话cookie,只要你关闭页面,cookie立马失效,你什么数据都获取不到,最让人头疼的是获取了登录后的cookie但就是无法请求到数据?遇到这个问题解决办法是就是用reques...原创 2019-08-14 20:38:55 · 4664 阅读 · 0 评论 -
Gerapy分布式爬虫管理框架,从繁琐的命令中解脱出来
文章目录背景安装初始化主机管理项目管理监控任务项目编辑代码生成结语背景用 Python 做过爬虫的小伙伴可能接触过 Scrapy,GitHub:https://github.com/scrapy/scrapy。Scrapy 的确是一个非常强大的爬虫框架,爬取效率高,扩展性好,基本上是使用 Python 开发爬虫的必备利器。如果使用 Scrapy 做爬虫,那么在爬取时,我们当然完全可以使用自己的...转载 2019-06-16 09:05:58 · 2923 阅读 · 0 评论 -
超全的python爬虫练手项目汇总
很多爬虫项目比如链家,高德地图等,找网页的接口,是自己写的,代码里有注释原创 2019-06-03 21:11:18 · 11295 阅读 · 1 评论 -
分布式爬虫Scrapy-redis框架源码解析
文章目录一、scrapy-redis架构原理Scrapy-redis提供了下面四种组件(components):1. Scheduler(调度器):2. Duplication Filter(过滤工具):3. Item Pipeline(管道):4. Base Spider:二、源码解析1.connection.py2.defaults.py3. dupefilter.py4. pickleco...原创 2019-06-13 23:03:12 · 3321 阅读 · 2 评论 -
Python协程理解——基于爬虫举例
当前代码在工作当中没有太大的含义,但是对于大家理解协程的基础概念是相当有好处的协程最直接的可以理解为程序当中一个没有返回的功能块儿我们之前有学过多线程,所谓的多线程不论是异步并发,还是并发强调的时候将功能放到不同的线程上分别运行的过程但是协程不是这样的,协程强调的是在同一个线程上进行运行,这样免去了线程生产、消费、抛弃的损耗站在生产消费者模式来看多线程主张的是:生产者生产生产的内容放...原创 2019-06-06 22:04:50 · 2672 阅读 · 0 评论 -
Python爬虫监控(邮件和钉钉)
文章目录一、监控的意义二、Python邮件监控(SMTP)1. SMTP简介2. 邮件监控五个步骤3. 邮件监控发送(代码)二、钉钉监控一、监控的意义爬虫脚本是基于网站的结构去写的,但是随着互联网的发展,很多公司的页面结构会发生变化,发生的变化就会导致我们写的爬虫失效,最主要的失效方式是xpath的失效。随着我们写的爬虫越来越多,越就越来越难以发现这些失效的脚本,导致数据更新失败,不及时,或者...原创 2019-06-12 21:24:02 · 9241 阅读 · 0 评论 -
python爬虫知识:正则表达式
概念正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式的原理:给定一个正则表达式和另一个字符串,我们可以达到如下的目的:给定的字符串是否符合正则表达式的过滤逻辑(“匹配”);通过...原创 2019-05-27 09:37:57 · 12029 阅读 · 0 评论