scrapy框架学习

最新推荐文章于 2023-07-14 17:00:00 发布

原创最新推荐文章于 2023-07-14 17:00:00 发布 · 282 阅读

CC 4.0 BY-SA版权

17 篇文章

订阅专栏

框架功能：
高性能持久化存储，异步数据下载，高性能数据解析，分布式，

scrapy框架

pip install scrapy

setting.py：
ROBOTSTXT_OBEY= TRUE #可以忽略或者不遵守robots协议
USER_AGENT= #伪装(浏览器)请求载体身份
LOG_LEVEL=“ERROR” #错误日志

scrapy使用流程：

简介
Scrapy shell也称"Scrapy终端"，是一个交互终端，使我们可以在未启动spider爬虫的情况下尝试及调试代码。
更为方便的是，我们也可以直接用来测试XPath或CSS表达式，而不用import导入相应模块。通过查看其运行的结果，方便了我们分析目标网页，并从中测试我们的表达式是否提取到了数据。
Scrapy内置的Selector选择器
在Scrapy中使用xpath或是CSS等，之所以不用再导入第三方包，是因为在Scrapy中已内置了相应的Selector选择器。
Selector有四个基本的方法
1. xpath( )
  我们通过书写xpath表达式，可使程序返回该表达式所对应的所有节点的selector list选择器列表，从而筛选我们想要定位的元素。
2. extract( )
  序列化节点为Unicode字符串，并返回list列表。
3. css( )
  根据css表达式，返回该表达式所对应的所有节点的selector list选择器列表，语法和 BeautifulSoup4相同。
4. re( )
  根据书写的正则表达式，对数据进行提取，返回Unicode字符串list列表。