
scrapy爬虫框架
SpecYue
学习自记录
展开
-
01--Scrapy入门
创建项目 scrapy startproject mySpider 生成一个爬虫 scrapy genspider itcast “itcast.cn” name = 'itcast' # 爬虫名 allowed_domains = ['itcast.cn'] # 允许爬的范围 提取数据 完善spider,使用xpath等方法 settings中加上LOG_LEVEL = "WA...原创 2019-04-23 20:05:06 · 129 阅读 · 0 评论 -
02---logging模块的使用
SCRAPY - setting中设置LOG_LEVEL="WARNING" - setting中设置LOG_FILE="./a.log" 设置日志保存的位置,设置后终端不会显示日志内容 - import logging,实例化logger的方式在任何文件中使用logger输出的内容 普通项目中 imort logging logging.basicConfing() 设置日志输出的样式格式 ...原创 2019-04-29 18:19:51 · 162 阅读 · 0 评论 -
03--构造爬虫爬腾讯招聘,实现翻页爬取
创建项目 scrapy startproject tencent cd tencent 打开项目目录 scrapy genspider hr tence.com# hr为spder文件的名字,tencent.com是允许爬的域名范围 hr.py 设置初始的url地址 打开网页源代码根据xpath找需要的信息 取标签的文本值使用text()函数,去标签的属性值用@,比如取a标签的地址re...原创 2019-04-29 19:22:11 · 207 阅读 · 0 评论 -
04--定义item,使用meta在不同解析函数之间传递参数
文章目录使用爬阳光政务平台的例子创建项目文件结构定义itemyg.py处理数据注意 使用爬阳光政务平台的例子 创建项目 scrapy startproject yg scrapy genspider yguang wz.sun0769.com 文件结构 定义item 到item.py中 只有在item.py中定义的字段才能在yg.py中使用 # -*- coding: utf-8 -*- ...原创 2019-05-05 17:09:53 · 527 阅读 · 0 评论 -
05--CrawlSpider的使用
CrawlSipder可以自动根据正则表达式提取页面中的url地址,更具相应的参数去到callback函数以及要不要在新提取到的url地址执行提取url地址的规则 创建CrawlSpider scrapy genspider -t crawl 爬虫文件名 allowed_domains(限定域) 代码 # -*- coding: utf-8 -*- import scrapy from scrap...原创 2019-05-06 16:46:54 · 185 阅读 · 0 评论