- 博客(8)
- 收藏
- 关注
原创 爬虫--7Selenium webdriver控制浏览器
一、使用Selenium库调用浏览器必须有一个webdriver驱动文件,版本要与本地浏览器同步谷歌Chrome各版本驱动的下载地址http://chromedriver.storage.googleapis.com/index.html火狐Firefox浏览器对应各个版本驱动下载地址:https://github.com/mozilla/geckodriver/releases/二、 手动创建一个存放浏览器驱动的目录,如: F...
2021-09-24 15:02:20
234
原创 爬虫框架scrapy--6middlewares下载中间件(动态更换ip和USER_AGENT)
一、middlewares下载中间件的基本介绍 1、使用方法∶编写一个Downloader Middlewares和我们编写一个pipeline 一样,定义一个类,然后在 setting中开启 2、Downloader Middlewares默认的方法∶ a、process_request(self, request, spider):...
2021-09-24 14:31:19
225
原创 爬虫框架scrapy--5模拟登陆
一、利用已有的cookies:通过在spiders下的爬虫文件中重写start_requests方法,在回调函数中提取数据class BaiduSpider(scrapy.Spider): name = 'baidu' allowed_domains = ['baidu.com'] start_urls = ['http://baidu.com/'] # 重写start_requests方法 def start_requests(self):
2021-09-23 19:04:22
147
原创 爬虫框架scrapy--4CrawISpider的使用(自动提取url)
创建项目后,cd到项目文件夹,终端输入以下命令创建CrawISpider类爬虫:scrapy genspider -t crawl itcast(项目名) itcast.cn(域名)class CfSpider(CrawlSpider): name = 'cf' allowed_domains = ['circ.gov.cn'] start_urls = ['http://www.circ.gov.cn/web/site0/tab5240/module14430/p.
2021-09-23 17:24:46
317
原创 爬虫框架scrapy--3pipelines通道的使用
在pipelines通道中可以对不同来源的数据进行处理和保存,方法如下:1、在settings中找到如下代码段并进行修改# Configure item pipelines# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html#取消下面注释开启PIPELIN通道,#ITEM_PIPELINES = {#数字300代表优先级,数字越小越先调用# 'myFistScrapy.pipelines.Myfist
2021-09-23 11:51:34
248
原创 爬虫框架scrapy--2入门使用
在项目下spider文件夹中找到创建的爬虫实例,import scrapyclass ItcastSpider(scrapy.Spider): name = "itcast" allowed_domains = ["qiushibaike.com"]#域名限制 start_urls = ("https://www.qiushibaike.com/text",)#需要爬取的第一个网页 def parse(self, response):#在这个函数中可以对爬取的网页做
2021-09-23 11:33:55
101
原创 爬虫框架scrapy--1环境搭建及项目创建基本步骤
1、安装scrapy前,需先下载与python对应的wisted,下载网址如下:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted2、将下载的文件复制到python的Scripts目录下3、运行cmd,切到盘符下,用下面命令进行安装pip3 install 文件名4、安装scrapy,用pip命令或者在pycharm设置中安装5、创建项目需要在terminal(终端)输入命令scrapy startproject 项目名称6、进入.
2021-09-23 10:56:39
502
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人