
Scrapy框架
木下瞳
这个作者很懒,什么都没留下…
展开
-
scrapy shell
例子:分析过程:scrapy shell url 查看页面的信息view(response) 在浏览器中显示 response 所包含的对象,尝试提取书名,价钱,星星数,>>> view(response)True>>> sel = response.css('div.col-sm-6 product_main')>>> s...原创 2020-02-04 12:50:47 · 149 阅读 · 0 评论 -
scrapyd 爬虫管理工具,scrapy-client
了解更多关注微信公众号“木下学Python”吧~scrapyd:1.安装pip install scrapyd2.开启在 cmd 输入 scrapyd 开启,默认端口是 6800,在浏览器中输入 localhost:6800 即可3.调用 scrapy 上的功能,curl 工具实现文档:https://scrapyd.readthedocs.io/...原创 2019-04-28 11:26:59 · 586 阅读 · 0 评论 -
scrapy 方法,函数,及一些参数
目录相对链接url 变绝对链接:Selector(response=response.text):extract() 与 extract_first():isinstance(item,BooksSpiderItem)Request(url[,callback,method,headers,body,cookies,meta,encoding,priority,dont_fi...原创 2019-05-03 11:47:42 · 919 阅读 · 0 评论 -
scrapy 管道文件 pipelines.py
目录process_item(self,item,spider)open_spider(self,spider)close_spider(self,spider)from_crawler(cls,crawler)过滤重复数据的定义管道存储到数据库 MongoDB下载文件名的更改存储到数据库 MySQLprocess_item(self,item,spider)...原创 2019-05-03 18:25:16 · 1789 阅读 · 0 评论 -
scrapy 中间件 middlewares.py
目录def process_spider_input(self, response, spider):def process_spider_output(self, response, result, spider):def process_spider_exception(self, response, exception, spider):def process_star...原创 2019-04-28 18:46:11 · 918 阅读 · 0 评论 -
scrapy 在 pycharm 中调试
https://www.cnblogs.com/weixuqin/p/9074448.html在项目文件夹中建一个 main.py 文件,与 scrapy.cfg 文件在同级目录输入:#!/usr/bin/env python#-*- coding:utf-8 -*-from scrapy.cmdline import executeimport osimport sys...转载 2019-05-04 12:08:46 · 253 阅读 · 0 评论 -
scrapy LinkExtractor 提取链接相关用法 crawl 模板
目录不使用 crawl 模板创建好 LinkExtractor描述提取规则的参数参数默认值allowdenyallow_domainsdeny_domainsrestrict_xpath 与 restrict_csstagsattrsprocess_value使用 crawl 模板rules=(#所以可以得到提取的正则...原创 2019-05-04 14:05:24 · 1720 阅读 · 0 评论 -
scrapy 自定义数据导出格式
Excel 格式在项目中创建一个 my_exporters.py(与 setting.py 同级目录),在其中实现 ExcellItemExporterfrom scrapy.exporters import BaseItemExporterimport xlwtclass ExcelItemExporter(BaseItemExporter): def __init__...原创 2019-05-04 16:20:09 · 496 阅读 · 0 评论 -
scrapy 中使用 splash
目录参数,属性在 setting.py 中配置在 scrapy 中使用例子参数,属性from scrapy_splash import SplashRequestSplashRequest构造器方法中的一些常用参数。url 与scrapy.Request中的url相同,也就是待爬取页面的url。 headers 与scrapy.Reques...原创 2019-05-10 23:04:01 · 405 阅读 · 0 评论 -
redis 分布式爬虫
等待爬取完,可用 python 程序读出原创 2019-05-21 23:18:13 · 139 阅读 · 0 评论 -
scrapy 存储数据到 appery.io 平台
https://www.jianshu.com/p/8773f77a6eb6原文链接存储的数据只能保存爬取的每一页的第一个数据不知道为什么,此链接到‘创建手机链接’不可用 在 seeting.py 里面设置ITEM_PIPELINES = {'scrapyapperyio.ApperyIoPipeline':300}APPERYIO_DB_ID = 'API'APPERYI...转载 2019-01-23 11:35:49 · 433 阅读 · 0 评论 -
scrapy contract合同集成测试
contract 有点像为爬虫设计的单元测试。contract 包含在紧挨着函数的注释(即文档字符串)中,并且以 @ 开头。 def parse(self, response): """ @url https://movie.douban.com/chart @returns items 1 16 @returns req...原创 2019-01-21 20:40:04 · 379 阅读 · 0 评论 -
Scrapy 运行爬虫文件批量
了解更多关注微信公众号“木下学Python”吧~1.使用修改 crawl 源码 + 自定义命令方式实现crawl 命令源码地址:https://github.com/scrapy/scrapy/blob/master/scrapy/commands/crawl.py2.创建项目:scrapy startproject mymultispd3.进入项目文件创建多个爬虫文件:scr...原创 2018-11-25 18:47:36 · 828 阅读 · 0 评论 -
用 scrapy 爬取 xml 源
1.创建项目文件夹:scrapy startproject myxml2.编辑 items 文件,定义要存储的结构化数据3.创建一个爬虫文件用于分析 XML 源:1)scrapy genspider -l 先查询可使用爬虫模板文件2)scrapy genspider -t xmlfeed myxmlspider sina.com.cn 使用模板 xmlfeed 创建一个名为 myx...原创 2018-11-24 18:44:00 · 462 阅读 · 0 评论 -
用 scrap 爬取处理 csv 源
1.以 csvdeed 模板创建爬虫的流程1.创建项目:scrapy startproject mycsv2.编写 Item.py 文件,定义要提取的数据3.查看可用爬虫模板:scrapy genspider -l4.以 csvfeed 模板创建一个 mycsvspider.py 文件,在 spider 目录下:scrapy genspider -t csvdeed mycsvfe...原创 2018-11-25 14:37:48 · 295 阅读 · 0 评论 -
Scrapy 之配置文件 setting.py
目录1.爬虫是否遵守 robots 协议:默认是遵守的;不遵守把第二行注释删掉即可2.爬虫是否让浏览器识别我们的 cookie:默认是识别;不想让浏览器识别,是一种反反爬策略,第二行注释删掉即可3.实体管道 piplines.py ,是处理数据的,比如写入文件,数据库存储等;默认是关闭的,要启动删掉注释即可4.加请求头5.自定义管道开启6.激活 spider 中间件7...原创 2018-11-27 16:32:25 · 649 阅读 · 0 评论 -
Scrapy 之配置文件 item.py
了解更多关注微信公众号“木下学Python”吧~目录数据的存储容器,在对数据进行有处理的操作时,必须要用,例如写入txt,插入数据库等ItemLoaderField 元数据容器实例化在 spider 中FilePipeline 文件下载管道的容器数据的存储容器,在对数据进行有处理的操作时,必须要用,例如写入txt,插入数据库等没有对数据进行操作时,可以不使...原创 2018-12-08 16:50:15 · 888 阅读 · 0 评论 -
scrapy 中 css 提取信息
item_nodes = response.css('#datalist tr') #提取大标签 for item_node in item_nodes: #根据 item 文件中所定义的字段内容,进行字段内容的抓取 item_loader = StockstartItemLoader(...原创 2018-12-16 18:46:29 · 877 阅读 · 2 评论 -
scrapy 模拟登陆
通过 cookies 登陆,以豆瓣的个人邮箱为例# -*- coding: utf-8 -*-import scrapyfrom douban_movie_rank.items import DoubanMovieRankItemfrom scrapy.http import Requestfrom scrapy.http import FormRequestclass Basi...原创 2019-01-23 19:01:33 · 437 阅读 · 0 评论 -
scrapinghub 部署
1.创建项目点击后输入项目名,,创建后即可看见我们创建的项目 2.配置在项目文件里面打开 scrapy.cfg 文件 修改 deploy 下面的代码为下图 3.安装工具 登陆安装:pip install shub登陆:shub login 输入命令后,输入自己 API KEY 后就登陆成功 4.部署到服务器切换到项目的文件夹目录打开 cm...原创 2019-01-25 15:27:53 · 821 阅读 · 0 评论 -
Scrapy 命令行使用
目录1.项目创建:2.from xiaozhu.items import XiaozhuItem #导入定义爬虫字段:3.Scrapy爬虫运行:4.代码调式5.写入csv命令6.打开一个页面并访问 Scrapy 命令7.查看可用爬虫模板8.以 csvfeed 模板创建一个 mycsvspider.py文件,在 spider 目录下,最后为域名9.解析爬虫模板中...原创 2018-07-26 20:59:49 · 950 阅读 · 0 评论