
爬虫
文章平均质量分 62
淘淘桃
兄弟们互关!互关!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
scrapy集成selenium
使用scrapy默认下载器---》类似于requests模块发送请求,不能执行js,有的页面拿回来数据不完整想在scrapy中集成selenium,获取数据更完整,获取完后,自己组装成 Response对象,就会进爬虫解析,现在解析的是使用selenium拿回来的页面,数据更完整。原创 2023-07-14 19:19:02 · 861 阅读 · 0 评论 -
scrapy---爬虫中间件和下载中间件
修改响应对象,最后进入到爬虫的parser中就是修改后的response。-进来request对象。-出去response对象。原创 2023-07-14 19:16:00 · 2726 阅读 · 0 评论 -
scrapy ---分布式爬虫
原来scrapy的Scheduler维护的是本机的任务队列(待爬取的地址)+本机的去重队列(放在集合中)---》在本机内存中。不使用原生的调度器了,使用scrapy_redis提供的调度器,它就是使用了redis的列表。所以实现分布式爬取的关键就是,找一台专门的主机上运行一个共享的队列比如Redis,4.将初始爬取的地址传到redis队列中---cmd启动redis。key------就是第二步 redis_key对应的值。value--------就是爬取的地址初始地址。#1、多台机器共享队列。原创 2023-07-14 18:53:37 · 2358 阅读 · 0 评论 -
scrapy----setting配置
1 了解BOT_NAME = "firstscrapy" #项目名字,整个爬虫名字#2 爬虫存放位置 了解#3 记住 是否遵循爬虫协议,一般都设为False# 4 记住#5 记住 日志级别#6 记住 DEFAULT_REQUEST_HEADERS 默认请求头q=0.9,*/*;q=0.8',#7 记住 后面学 SPIDER_MIDDLEWARES 爬虫中间件#8 后面学 DOWNLOADER_MIDDLEWARES 下载中间件。原创 2023-07-13 15:38:45 · 1676 阅读 · 0 评论 -
scrapy---爬虫界的django
引擎(EGINE):引擎负责控制系统所有组件之间的数据流,并在某些动作发生时触发事件。大总管,负责整个爬虫数据的流动调度器(SCHEDULER)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址下载器(DOWLOADER) 用于下载网页内容, 并将网页内容返回给EGINE,下载器是建立在twisted这个高效的异步模型上的(效率很高,同时可以发送特别多请求出出)原创 2023-07-13 15:37:19 · 2507 阅读 · 0 评论 -
requests
爬虫需要掌握的知识-抓取数据:发送网络请求(http),获得响应(http响应,响应头,响应体---》真正重要的数据在响应体中)-python模块:requests,selenium-清洗数据:解析拿回来的数据---》json,xml,html,二进制-json解析,xml解析。。。-python模块:re,json,beautifulsoup4(bs4),lxml,selenium-入库:存文件,存mysql,redis,mongodb。原创 2023-07-07 21:42:04 · 547 阅读 · 0 评论 -
爬虫-------selenium
【代码】爬虫-------selenium。原创 2023-04-10 18:16:19 · 6570 阅读 · 0 评论