spider基础

最新推荐文章于 2025-07-16 17:25:09 发布

转载最新推荐文章于 2025-07-16 17:25:09 发布 · 68 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/lvhonglei-python/p/7582840.html

本文介绍了使用Scrapy框架创建和运行爬虫的过程，包括项目的搭建、爬虫的创建及运行方式。此外还讲解了不同日志等级的应用场景，并演示了如何利用Scrapyshell进行代码调试和XPath表达式的测试。

1、爬虫框架过程：
　　1、创建项目
　　　　　　scrapy startproject yangguang

　　2、创建爬虫
　　　　　　scrapy genspider yg 域名

　　　　创建 crawlspider
　　　　　　scrapy genspider -t crawl csdn csdn.com

　　2、运行爬虫
　　　　　　scrapy crawl **

2、什么是日志等级？
　　　　logging模块,可以输出到屏幕，可以保存到本地

　　1. logging.CRITICAL - for critical errors (highest severity)

　　2. logging.ERROR - for regular errors

　　3. logging.WARNING - for warning messages

　　4. logging.INFO - for informational messages

　　5. logging.DEBUG - for debugging messages (lowest severity)

　　动态显示log
　　　　　　　　tail -f xxx.log

3、Scrapy shell是一个交互终端，我们可以在未启动spider的情况下尝试及调试代码，
　　也可以用来测试XPath表达式
　　使用方法：
　　　　scrapy shell http://www.itcast.cn/channel/teacher.shtml

　　　　dir(scrapy)

　　response.url：　　　　当前响应的url地址
　　response.request.url：　当前响应对应的请求的url地址

　　response.headers：　　响应头
　　response.body：　　响应体，也就是html代码，默认是byte类型
　　response.requests.headers：当前响应的请求头

转载于:https://www.cnblogs.com/lvhonglei-python/p/7582840.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。