spider基础

本文介绍了使用Scrapy框架创建和运行爬虫的过程,包括项目的搭建、爬虫的创建及运行方式。此外还讲解了不同日志等级的应用场景,并演示了如何利用Scrapyshell进行代码调试和XPath表达式的测试。

1、爬虫框架过程:
  1、创建项目
      scrapy startproject yangguang

  2、创建爬虫
      scrapy genspider yg 域名

    创建 crawlspider
      scrapy genspider -t crawl csdn csdn.com

  2、运行爬虫
      scrapy crawl  **

2、什么是日志等级?
    logging模块,可以输出到屏幕,可以保存到本地

  1. logging.CRITICAL - for critical errors (highest severity)

  2. logging.ERROR - for regular errors

  3. logging.WARNING - for warning messages

  4. logging.INFO - for informational messages

  5. logging.DEBUG - for debugging messages (lowest severity)

   动态显示log
        tail -f xxx.log

3、Scrapy shell是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,
  也可以用来测试XPath表达式
  使用方法:
    scrapy shell http://www.itcast.cn/channel/teacher.shtml

    dir(scrapy)

  response.url:      当前响应的url地址
  response.request.url: 当前响应 对应的请求的url地址

  response.headers:   响应头
  response.body:        响应体,也就是html代码,默认是byte类型
  response.requests.headers:当前响应的请求头

 

转载于:https://www.cnblogs.com/lvhonglei-python/p/7582840.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值