
scrapy
又菜又爱玩呜呜呜~
成为一名优秀的架构师
展开
-
scrapy框架爬取腾讯招聘
1.对腾讯直聘的页面进行分析 最后发现首页面是AJAx请求,所以我们返回应该是一个JSON包的形式 2.重写爬虫start_request方法 3.接受JSON包并设定字典储存数据 4.根据POSTID,拼接详情页url, 并将详情页添加进字典 1.拼接url并传递连接到详情页2.对详情页的JSON包进行解析 5.在管道内进行存储, 将数据存入数据库中 6.源代码 1.爬虫页面源代码 import scrapy import json import time class A51jobSpider原创 2021-08-24 20:19:01 · 255 阅读 · 0 评论 -
scrapy中parse之间传递不通
今天在写scrapy爬取网站时,列表页的url请求详情页的url,不执行也不报错,最后发现是yield scrapy.Request中少了dont_filter=true 没有时 有的时候 dont_filter到底是什么? dont_filter,是关闭去重的,scrapy会对request的URL去重(RFPDupeFilter),加上dont_filter则告诉它这个URL不参与去重,而且不会被allowed_domains域名过滤掉 ...原创 2021-08-23 20:38:58 · 191 阅读 · 0 评论 -
scrapy入门基础
1.scrapy的安装 pip install scrapy 2.scrapy项目的创建 1.首先找到要建立项目的位置 在路径前面加上cmd然后回车 2.输入建立scrapy项目的命令 scrapy startproject + 你要起的项目名称 例如:scrapy startproject study 出现这个就说明创建成功了,打开pycharm就可以查看项目的结构 3.建立爬虫项目 1.在cmd命令中输入cd 加刚才的项目名 2.输入创建爬虫文件的命令 scrapy genspider 爬原创 2021-08-22 21:28:27 · 1679 阅读 · 0 评论