使用Spider提取数据（爬取起点中文网）

最新推荐文章于 2025-02-28 14:08:32 发布

原创

最新推荐文章于 2025-02-28 14:08:32 发布 · 2.7k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫

本文介绍了Scrapy中Spider的使用，如何通过Item封装数据，并演示了Pipeline在数据清理、去重和持久化存储中的关键作用。通过实例展示了如何设置User-Agent，以及XPath和CSS选择器在解析HTML中的应用。

首先介绍Scrapy中最重要的组件爬虫（Spider），它用于构建HTTP请求并从网页中提取数据；接着介绍使用Item封装数据；最后介绍使用Pipeline组件对数据进行处理，如数据清理、去重及持久化存储等。

1.使用Spider提取数据

Scrapy网络爬虫编程的核心就是爬虫（Spider)组件，它其实是一个继承于Spider的类，主要功能是封装一个发送给网站服务器的HTTP请求，解析网站返回的网页提取数据。
如何避免爬虫网站识别出来导致被禁呢？可以重写（override)start_requests()方法，手动生成一个功能更强大的Request对象。因为伪装浏览器、自动登录等功能都是在Request对象中设置的。
引擎是怎么知道要将下载好的页面发送给parse()方法而不是其他方法？能否自定义这个方法？引擎之所以能自动定位，是因为在Request对象中，指定了解数据的回调函数，而默认情况下，Request指定的解析函数就是parse()方法。

from scrapy import Request
from scrapy.spiders import Spider# 导入Spider类
class HotSalesSpider(Spider):
    # 定义爬虫名称
    name = 'hot'
    # 设置用户代理(浏览器类型)
    #qidian_headers = {"user-agent":" Mozilla/"
                      #"5.0 (Windows NT 10.0;"
                     #" Win64; x64) AppleWebKit/"
                      #"537.36 (KHTML, like Gecko) Chrome/"
                      #"91.0.4472.124 Safari/"
                                  # "537.36"}
    qidian_headers = {
   
   "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"}

    # 获取初始Reques
    def start_requests(self):

        url = "https://www.qidian.com/rank/hotsales?style=1&page=1"
        # 生成请求对象，设置url,headers,callback
        yield Request(url,headers=self.qidian_headers,callback=self.qidian_parse)

        # 解析函数
    def qidian_parse(self,response):

        # 使用xpath定位到小说的div元素，保存到列表中
        list_selector = response.xpath("//div[@class='book-mid-info']")
            # 依次读取每部小说的元素，从中获取小说名称、作者、类型和形式
        for one_selector in list_selector:
                # 获取小说名称
            name = one_selector.xpath("h4/a/text()").extract()[0]
                # 获取作者
            author = one_selector.xpath("p[1]/a[1]/text()").extract()[0]
                # 获取类型
            type = one_selector.xpath("p[1]/a[2]/text()").extract()[0]
                # 获取形式（连载还是完本）
            form = one_selector.xpath("p[1]/span/text()").extract()[0]
                # 将爬取到的一部小说保存到字典中
            hot_dict