使用Spider提取数据(爬取起点中文网)

本文介绍了Scrapy中Spider的使用,如何通过Item封装数据,并演示了Pipeline在数据清理、去重和持久化存储中的关键作用。通过实例展示了如何设置User-Agent,以及XPath和CSS选择器在解析HTML中的应用。
  • 首先介绍Scrapy中最重要的组件爬虫(Spider),它用于构建HTTP请求并从网页中提取数据;接着介绍使用Item封装数据;最后介绍使用Pipeline组件对数据进行处理,如数据清理、去重及持久化存储等。

1.使用Spider提取数据

  • Scrapy网络爬虫编程的核心就是爬虫(Spider)组件,它其实是一个继承于Spider的类,主要功能是封装一个发送给网站服务器的HTTP请求,解析网站返回的网页提取数据。
  • 如何避免爬虫网站识别出来导致被禁呢?可以重写(override)start_requests()方法,手动生成一个功能更强大的Request对象。因为伪装浏览器、自动登录等功能都是在Request对象中设置的。
  • 引擎是怎么知道要将下载好的页面发送给parse()方法而不是其他方法?能否自定义这个方法?引擎之所以能自动定位,是因为在Request对象中,指定了解数据的回调函数,而默认情况下,Request指定的解析函数就是parse()方法。
from scrapy import Request
from scrapy.spiders import Spider# 导入Spider类
class HotSalesSpider(Spider):
    # 定义爬虫名称
    name = 'hot'
    # 设置用户代理(浏览器类型)
    #qidian_headers = {"user-agent":" Mozilla/"
                      #"5.0 (Windows NT 10.0;"
                     #" Win64; x64) AppleWebKit/"
                      #"537.36 (KHTML, like Gecko) Chrome/"
                      #"91.0.4472.124 Safari/"
                                  # "537.36"}
    qidian_headers = {
   
   "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"}

    # 获取初始Reques
    def start_requests(self):

        url = "https://www.qidian.com/rank/hotsales?style=1&page=1"
        # 生成请求对象,设置url,headers,callback
        yield Request(url,headers=self.qidian_headers,callback=self.qidian_parse)

        # 解析函数
    def qidian_parse(self,response):

        # 使用xpath定位到小说的div元素,保存到列表中
        list_selector = response.xpath("//div[@class='book-mid-info']")
            # 依次读取每部小说的元素,从中获取小说名称、作者、类型和形式
        for one_selector in list_selector:
                # 获取小说名称
            name = one_selector.xpath("h4/a/text()").extract()[0]
                # 获取作者
            author = one_selector.xpath("p[1]/a[1]/text()").extract()[0]
                # 获取类型
            type = one_selector.xpath("p[1]/a[2]/text()").extract()[0]
                # 获取形式(连载还是完本)
            form = one_selector.xpath("p[1]/span/text()").extract()[0]
                # 将爬取到的一部小说保存到字典中
            hot_dict 
评论 3
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值