
scrapy
执笔写回憶
人生苦短,才学Python!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
使用pyinstaller打包后os获取当前可执行文件所在路径,自动执行scrapy
使用realpath解决使用pyinstaller打包后os获取当前可执行文件所在路径问题原创 2022-10-12 14:34:15 · 1401 阅读 · 0 评论 -
scrapy获取陕西省政府采购网相关数据,存入MongoDB、Redis、MySQL数据库和本地表格(选用中间件随机请求头User-Agent和增加selenium操作)
1、创建Scrapy项目2.进入项目目录,使用命令genspider创建Spider3、定义要抓取的数据(处理items.py文件)4、编写提取item数据的Spider(在spiders文件夹下:allbooks.py)5.处理pipelines管道文件保存数据,可将结果保存到文件中(pipelines.py)6.配置settings文件(settings.py)7-选用,增加随机代理中间件(middlewares.py)7.记得提前打...原创 2020-11-12 15:28:06 · 859 阅读 · 1 评论 -
在csdn发布scrapy框架文章用的模板
1、创建Scrapy项目scrapy startproject ***2.进入项目目录,使用命令genspider创建Spiderscrapy genspider **** ***.com3、定义要抓取的数据(处理items.py文件)import scrapy4、编写提取item数据的Spider(在spiders文件夹下:allbooks.py)import scrapy5.处理pipelines管道文件保存数据,可将结果保存到文件中(pipelines.py原创 2020-11-12 14:36:26 · 155 阅读 · 0 评论 -
scrapy框架创建项目shell脚本
# 创建scrapy项目shell脚本# 1. scrapy startproject 项目名(项目名如果不符合要求,scrapy本身会报异常,创建失败)# 2. cd 项目名# 3. scrapy genspider 爬虫名 域名 或 规则爬虫:scrapy genspider -t crawl 爬虫名 域名# 注意项目名必须以字母开头,只能包含字母、数字、下划线,爬虫名和域名没要求,但是增加了爬虫名的验证import osimport rewhile True: pri.原创 2020-11-11 14:09:57 · 297 阅读 · 0 评论 -
scrapy创建规则爬虫CrawlSpider获取读书网书籍信息保存数据库和本地表格,并用ImagePipeline下载封面图
scrapy genspider -t crawl dubook dushu.com# -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Ruleclass DubookSpider(CrawlSpider): name = 'dubook' allowed_domains =...原创 2020-11-04 18:07:10 · 285 阅读 · 0 评论 -
scrapy shell中规则爬虫LinkExtractor练习
>>>scrapy shell>>>fetch('https://www.dushu.com/book/')>>>from scrapy.linkextractors import LinkExtractor>>>extractor = LinkExtractor(r'/book/\d+?\.html') <scrapy.linkextractors.lxmlhtml.LxmlLinkExtractor object .原创 2020-11-04 16:07:28 · 271 阅读 · 1 评论 -
scrapy获取读书网书籍信息保存MongoDB、Redis、MySQL数据库和本地表格,并用ImagePipeline下载封面图
1、创建Scrapy项目scrapy startproject Dushu2.进入项目目录,使用命令genspider创建Spiderscrapy genspider dushu dushu.com3、定义要抓取的数据(处理items.py文件)import scrapyclass DushuItem(scrapy.Item): # 书籍ID book_id = scrapy.Field() # 书的链接地址 book_url = scrapy.原创 2020-11-04 13:08:42 · 393 阅读 · 1 评论 -
利用scrapy抓取读书网站关于多级分类书的信息,通过pipeline保存到MongoDB、Redis、MySQL数据库和本地表格
1、创建Scrapy项目scrapy startproject Dushu2.进入项目目录,使用命令genspider创建Spiderscrapy genspider dushu dushu.com3、定义要抓取的数据(处理items.py文件)import scrapyclass DushuItem(scrapy.Item): # 书籍ID book_id = scrapy.Field() # 书的链接地址 book_url = scrap..原创 2020-10-30 11:27:45 · 403 阅读 · 0 评论 -
Could not open CONNECT tunnel with proxy错误异常捕获TunnelError
scrapy中当我们使用代理爬取页面的时候,提示如下错误:Could not open CONNECT tunnel with proxy 14.115.105.155:808 [{'status': 307, 'reason': b'Temporary Redirect'}]很有可能已加入对方黑名单,可以用如下命令捕获异常,并删除这个代理:from scrapy.core.downloader.handlers.http11 import TunnelErrorif isinstanc原创 2020-07-30 12:25:03 · 67292 阅读 · 1 评论 -
利用scrapy简单爬取新片场前20页视频数据,并存入mysql数据库
1、创建Scrapy项目scrapy startproject XPC2.进入项目目录,使用命令genspider创建Spiderscrapy genspider xpc xinpianchang.com openapi-vtom.vmovier.com3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-import scrapyclass XpcItem(scrapy.Item): # 视频id v_id = sc原创 2020-07-29 10:10:20 · 869 阅读 · 0 评论 -
利用scrapy抓取国外图书网站关于书的信息,通过pipeline保存到MongoDB、Redis、MySQL数据库和本地表格(选用随机代理中间件)
1、创建Scrapy项目scrapy startproject AllBooks2.进入项目目录,使用命令genspider创建Spiderscrapy genspider allbooks allitebooks.org3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-import scrapyclass AllbooksItem(scrapy.Item): book_name = scrapy.Field()原创 2020-07-23 17:58:34 · 11383 阅读 · 0 评论 -
response.replace(body=response.text.replace(‘\xa0‘,‘‘)),scrapy抓取网页含\r \t \n \xa0时,修改response方法
xpath抓取数据值有\r\n\t时去掉的方法:https://blog.youkuaiyun.com/z564359805/article/details/101597953抓取网页含\r \t \n时,用normalize-space出现特殊符号有时候并不会成功,例如:['商家 \xa0厦门有限公司'],'\xa0'在网页源码中是' ',可以用如下方法:方法一:修改response这种方法是修改网页代码里面的数据,'\xa0'在网页源码中是' ',个人觉得毕竟不是筛选原创 2020-07-02 16:01:09 · 2966 阅读 · 0 评论 -
xpath抓取数据值有\r\n\t时,去掉的方法normalize-space()
主要使用:normalize-space()之前写法:response.xpath('//*[@id="to"]/tbody/tr/td[3]/a/text()')修改后:response.xpath('normalize-space(//*[@id="to"]/tbody/tr/td[3]/a/text())')原创 2019-09-28 09:51:41 · 3019 阅读 · 3 评论 -
python3.6 scrapy模块查询POS后台获取指定时间和状态的订单存入到excel表格中
根据用户输入的日期区间,获取已完成和配送中的相关订单信息,并生成表格。一个订单可能包含多个产品,所以会有重复的订单号出现,其中运费、折扣金额、优惠券支付是根据当前订单中产品数量算出的平均值。1、创建Scrapy项目scrapy startproject Order2.进入项目目录,使用命令genspider创建Spiderscrapy genspider order XXXX...原创 2019-01-15 17:06:23 · 626 阅读 · 0 评论 -
python3爬虫Scrapy框架解决URL被重定向无法抓取到数据问题,显示301/302状态码
1.什么是状态码301,302301 Moved Permanently(永久重定向) 被请求的资源已永久移动到新位置,并且将来任何对此资源的引用都应该使用本响应返回的若干个URI之一。比如百度百科:http://baike.baidu.com/fenlei/%E6%94%BF%E6%B2%BB%E4%BA%BA%E7%89%A9解决(一)1.在Request中将scrapy的dont...原创 2018-11-24 16:13:14 · 10172 阅读 · 2 评论 -
python3scrapy模块爬取国家粮油信息中心的政策法规和产业信息标题、文章内容等信息到数据库
1、创建Scrapy项目scrapy startproject Grain2.进入项目目录,使用命令genspider创建Spiderscrapy genspider grain grainoil.com.cn3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-import scrapyclass GrainItem(scr...原创 2018-08-10 13:59:40 · 1227 阅读 · 0 评论 -
python爬取玉米、小麦、水稻信息数据到本地为网页形式和mysql数据库中
1、创建Scrapy项目scrapy startproject ExGrain2.进入项目目录,使用命令genspider创建Spiderscrapy genspider exgrain ex-grain.cn3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-import scrapyclass ExgrainItem(s...原创 2018-08-03 18:25:36 · 1455 阅读 · 0 评论 -
安装scrapy教程
首先看这个方法能不能成功:pip install scrapy1、如果失败考虑安装whl格式的包: 1.1如果安装whl格式包则需要安装wheel库,安装方法:pip install wheel2、由于scrapy依赖twiste,先要安装twiste:下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/ 在网页中搜索twisted找到...原创 2018-06-04 17:04:41 · 1052 阅读 · 0 评论 -
ModuleNotFoundError: No module named 'win32api'
python3 运行scrapy出现如下问题:需要安装 pywin32下载地址:https://pypi.org/project/pypiwin32/#files使用cmd命令打开windows的命令行窗口,进入whl包所在的文件夹执行如下命令:pip install pypiwin32-223-py3-none-any.whl...原创 2018-06-04 19:50:37 · 9174 阅读 · 3 评论 -
【python】[scrapy] Object of type 'bytes' is not JSON serializable
#!/usr/bin/env python # -*- coding: utf-8 -*- #json_extention #2014-03-16 #copyright: orangleliu #license: BSD ''''' python中dumps方法很好用,可以直接把我们的dict直接序列化为json对象 但是有的时候我们加了一些自定义的类就没法序列化...转载 2018-06-06 18:25:25 · 8200 阅读 · 0 评论 -
Scrapy项目(东莞阳光网)---利用CrawlSpider爬取贴子内容,不含图片
1、创建Scrapy项目scapy startproject dongguan2.进入项目目录,使用命令genspider创建Spiderscrapy genspider -t crawl sunwz "wz.sun0769.com"3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-import scrapyclass D...原创 2018-06-14 13:50:26 · 547 阅读 · 0 评论 -
scrapy框架中ROBOTSTXT_OBEY = True的说明
在scrapy中创建项目以后,在settings文件中有这样的一条默认开启的语句:# Obey robots.txt rulesROBOTSTXT_OBEY = True默认为True,就是要遵守robots.txt 的规则,那么 robots.txt 是个啥?通俗来说, robots.txt 是遵循 Robot协议 的一个文件,它保存在网站的服务器中,它的作用是,告诉搜索引擎爬虫,本网站哪些目...原创 2018-06-14 13:47:22 · 3030 阅读 · 0 评论 -
scrapy下载图片 ImagesPipeline管道文件介绍
ImagePipelineScrapy用ImagesPipeline类提供一种方便的方式来下载和存储图片。需要PIL库支持。主要特征将下载图片转换成通用的JPG和RGB格式避免重复下载缩略图生成图片大小过滤工作流程爬取一个Item,将图片的URLs放入image_urls字段从Spider返回的Item,传递到Item Pipeline当Item传递到ImagePipeline,将调用Scrapy...转载 2018-06-14 15:32:25 · 1345 阅读 · 0 评论 -
Scrapy项目(东莞阳光网)---利用Spider爬取贴子内容,包含图片(使用Pycharm)
1、创建Scrapy项目scapy startproject dongguan22.进入项目目录,使用命令genspider创建Spiderscrapy genspider xixi "wz.sun0769.com"3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-import scrapyclass Dongguan2I...原创 2018-06-14 15:46:09 · 412 阅读 · 0 评论 -
Scrapy项目(腾讯社会招聘)---利用Spider爬取招聘信息
1、创建Scrapy项目scrapy startproject tencent2.进入项目目录,使用命令genspider创建Spiderscrapy genspider TencentPosition "tencent.com"3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-import scrapy# Item 定义...原创 2018-06-15 15:56:11 · 515 阅读 · 0 评论 -
Scrapy项目(腾讯社会招聘)---利用CrawlSpider爬取招聘信息
1、创建Scrapy项目scrapy startproject Tencent2Spider2.进入项目目录,使用命令genspider创建Spiderscrapy genspider -t crawl tencent "tencent.com"3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-import scrapyc...原创 2018-06-15 16:29:27 · 531 阅读 · 0 评论 -
scrapy爬取统计局的城乡代码,以目录文件夹形式生成,同时最后保存在excel中
1、创建Scrapy项目scrapy startproject Stats2.进入项目目录,使用命令genspider创建Spiderscrapy genspider stats stats.gov.cn3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-import scrapyclass StatsItem(scrapy...原创 2018-06-25 11:13:57 · 1003 阅读 · 0 评论 -
scrapy之发送POST请求(人人网简单登录)
1、创建Scrapy项目scrapy startproject renrenSpider2.进入项目目录,使用命令genspider创建Spiderscrapy genspider renren "renren.com"3、编写提取item数据的Spider(在spiders文件夹下:renren.py)# -*- coding: utf-8 -*-import scrapy# scrapy发...原创 2018-06-19 16:44:13 · 799 阅读 · 0 评论 -
scrapy之发送POST请求(人人网标准的模拟登陆步骤)
1、创建Scrapy项目scrapy startproject renren2Spider 2.进入项目目录,使用命令genspider创建Spiderscrapy genspider renren2 "renren.com" 3、编写提取item数据的Spider(在spiders文件夹下:renren2.py)# -*- coding: utf-8 -*-# scrapy发送POS请求--人...原创 2018-06-19 16:49:00 · 488 阅读 · 0 评论 -
scrapy模拟登陆pos系统,爬取登陆后客户列表页面信息到excel表中(网址用XXXX代替)
1、创建Scrapy项目scrapy startproject PosClient2.进入项目目录,使用命令genspider创建Spiderscrapy genspider posclient XXXX.com3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-import scrapyclass PosclientItem(scrapy.Item...原创 2018-07-01 14:44:07 · 1108 阅读 · 0 评论 -
scrapy爬取新浪网导航页所有大类、小类、小类里的子链接,以及子链接页面的新闻内容
1、创建Scrapy项目scrapy startproject Sina2、进入项目目录,使用命令genspider创建Spiderscrapy genspider sina sina.com.cn3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-# 爬取新浪网分类资讯# 爬取新浪网导航页下所有大类、小类、小类里的子链接,以...原创 2018-07-02 16:45:23 · 3733 阅读 · 0 评论 -
scrapy框架pipelines管道文件基本写法
import json# 转码操作,继承json.JSONEncoder的子类,在json目录下的encoder.py中class MyEncoder(json.JSONEncoder): def default(self, o): if isinstance(o, bytes): return str(o, encoding='utf-8')...原创 2018-06-11 15:49:50 · 1189 阅读 · 0 评论