
爬虫
迷鹿鹿鹿鹿鹿
期待自己可以成为很厉害的一枚spider man
展开
-
分布式搭建
概念:我们需要搭建一个分布式的机群,让其对一组资源进行分布联合爬取。作用:提升爬取数据的效率如何实现分布式?- 安装一个scrapy-redis组件- 原生的scrapy是不可以实现分布式爬虫,必须要让scrapy结合着scrapy-redis组件一起实现分布式- 为什么原生的scrapy不可以实现分布式? - 调度器不可以被分布式机群共享 - 管道不可以被分布式机群共享- scrapy-redis组件作用: - 可以给原生的scrapy框架提供可以被共享的管道和调度器 -原创 2020-09-16 15:12:37 · 399 阅读 · 2 评论 -
xpath中的基本操作
去掉空格res = html.xpath("normalize-space(//...)")res = html.xpath("//...").strip() # strip() 中可添加想去掉的字段用于循环res=html.xpath((string(//li[{}]/div[2]/div/div[2]/ul/li[1]/a/img/@alt))".format(i))原创 2020-07-29 17:54:44 · 239 阅读 · 0 评论 -
爬虫面试题
对if name == 'main’的理解陈述name__是当前模块名,当模块被直接运行时模块名为__main,也就是当前的模块,当模块被导入时,模块名就不是__main__,即代码将不会执行。python是如何进行内存管理的?对象的引用计数机制python内部使用引用计数,来保持追踪内存中的对象,Python内部记录了对象有多少个引用,即引用计数,当对象被创建时就创建了一个引用...原创 2019-02-18 20:08:48 · 233 阅读 · 0 评论 -
爬虫面试题02
爬虫爬取数据的流程?明确数据采集需求;分析要采集数据的url和相关参数;编码实现功能,获取url,对url进行筛选,找到自己想要的部分,入库,对数据去重;注意反爬虫的规则:1.验证码的识别;2.使用代理;3.httpclient头信息。如何抓取动态页面?动态网页指几种可能:1)需要用户交互,如常见的登录操作;2)网页通过JS / AJAX动态生成,如一个h...原创 2019-02-27 11:55:03 · 440 阅读 · 0 评论