
爬虫技术
Jianhao92
这个作者很懒,什么都没留下…
展开
-
7 爬虫 CrawlSpider类 增量式爬虫 分布式爬虫 生产者消费者模式
爬虫1 CrawlSpider类1.1 介绍CrawlSpider类是Spider的子类,主要用于全站数据的爬取。1.2 使用方法1.2.1 创建基于CrawlSpider类的爬虫文件创建工程 scrapy startproject testCrawlSpider进入工程目录 cd testCrawlSpider创建基于CrawlSpider类的爬虫文件 scrapy genspider -t crawl test www.test.com执行工程 scrapy crawl test原创 2020-07-13 00:37:29 · 509 阅读 · 0 评论 -
6 爬虫 Scrapy 爬取图片 请求传参 核心组件 中间件
爬虫1 爬取图片目标:爬取校花网的图片。1.1 创建工程scrapy startproject xiaohuaProjectcd xiaohuaProjectscrapy genspider xiaohua www.521609.com/修改配置文件settings.pyBOT_NAME = 'xiaohuaProject'SPIDER_MODULES = ['xiaohuaProject.spiders']NEWSPIDER_MODULE = 'xiaohuaProject.spid原创 2020-07-12 20:46:45 · 440 阅读 · 0 评论 -
5 爬虫 Scrapy框架 Redis数据库 手动请求发送
爬虫1 Scrapy框架1.1 介绍Scrapy框架是基于异步爬虫的应用框架,用于高性能数据解析,高性能持久化存储,全站数据爬取,增量式爬虫和分布式爬虫等。1.2 环境安装Windows1. pip install wheel2. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted3. 进入twisted目录下,执行 pip3 install twisted文件名 例如 pip install Twisted原创 2020-07-09 19:22:32 · 239 阅读 · 0 评论 -
4 爬虫 selenium模块 图片点击验证 js加密 js混淆
爬虫1 selenium模块1.1 简介selenium模块一般用于基于浏览器的自动化测试工作,也可以用于爬虫。使用selenium模块进行爬虫:可以方便地捕获动态加载的数据,页面可见即可得;容易实现模拟登录。1.2 基本使用1.2.1 安装安装selenium模块pip install selenium下载安装谷歌浏览器驱动http://chromedriver.storage.googleapis.com/index.html1.2.2 基本使用...原创 2020-07-07 23:51:08 · 663 阅读 · 0 评论 -
3 爬虫 模拟登录 异步爬虫
爬虫1 模拟登录1.1 模拟登录古诗文网古诗文网登陆页面:https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx点击登录按钮的请求参数Request URL: https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspxRequest Method: POSTForm原创 2020-07-06 22:49:43 · 662 阅读 · 0 评论 -
2 爬虫 数据解析(bs4,XPath) robots协议 cookie反爬 代理反爬
爬虫原创 2020-07-06 00:32:50 · 1144 阅读 · 0 评论 -
1 爬虫入门 requests模块 UA伪装
爬虫1 爬虫介绍1.1 什么是爬虫爬虫是通过编写程序来模拟浏览器上网,然后从网页中抓取数据的过程。1.2 分类1.2.1 通用爬虫与聚焦爬虫通用爬虫:抓取一张网页的全部源码。聚焦爬虫:抓取一张网页中的局部内容。聚焦爬虫是建立在通用爬虫的基础上的。1.2.2 增量式爬虫与分布式爬虫增量式爬虫是在上一次爬虫的基础上继续爬取数据,适用于继续爬取因故未爬完的数据或网站更新的数据;分布式爬虫是在多个服务器上部署爬虫程序,是一种提高爬取效率的方法。1.3 反爬机制与反反爬策略反爬机制反爬机制原创 2020-07-03 23:12:06 · 1140 阅读 · 0 评论