Scrapy | 手动请求发送实现的数据爬取-段子王网站

概要

爬取段子王网站的标题内容

在这里插入图片描述

  • 核心
Scrapy的手动请求发送实现的数据爬取
    yield scrapy.Request(url,callback):GET
        -caL1back指宽解析函数,用于解析数据
    yield scrapy.ForRequest(url,callback,formdata):POST
    	-formdata:字典,请R参数   

爬取流程

  1. 起始网站 start_urls
  2. 新的目标页面 new_url (新生成的,手动请求发送)⭐
  3. 解析数据
  4. 爬取数据

代码

  • spider.py
import scrapy
from firstBlood.items import FirstbloodItem

class FirstSpider(scrapy.Spider):
    name = "first"
    # allowed_domains = ["www.xxx.com"]
    start_urls = ['https://duanzi.cn/jingdian/'] # 首页 没有1

    # 通用url模板
    url = 'https://duanzi.cn/jingdian/%d/' # ⭐
    page_num =2

    def parse(self, response):
        articles = response.xpath('/html/body/div[1]/div[2]/div[2]/div[2]/div[1]/div[1]/div[@class="post item"]')
        print('*'*100)

        for article in articles:
            title = article.xpath('./h2/a/text()').extract_first()
            content = article.xpath('./div[2]/text()').extract_first()

            item = FirstbloodItem()
            item['title'] = title
            item['content'] = content

            yield item  # 提交给管道

        if self.page_num < 5 :# 结束递归条件
            print(f'第{self.page_num}详情页面的数据!!!')
            new_url = format(self.url%self.page_num)  # 拼接完整url   # ⭐
            self.page_num += 1
            print(new_url)
            # 对新的页面的URL进行请求发送   (手动请求发送)
            yield scrapy.Request(url=new_url,callback=self.parse)  # 涉及回调函数 是GET请求  ⭐

技术细节

format

  1. 在 Python 中,你可以使用 str.format() 方法或者格式化字符串字面量(f-strings)来格式化字符串。
name = "Alice"
greeting = "Hello, {}".format(name)
# 使用 f-strings(Python 3.6+)
name = "Alice"
greeting = f"Hello, {name}"
"这是一个{}和{}".format(变量1, 变量2)
# 格式化列表或者元组
data = ('张三', 25)
"{name} 是 {age}".format(*data)
# 格式化嵌套
data = {'name': '张三', 'info': {'age': 25, 'gender': '男'}}
"{name} 是 {info[age]}岁,性别是{info[gender]}".format(**data)

%

在Python中,% 操作符用于字符串格式化,它是一种传统的格式化方法,允许你将变量插入到字符串中

name = "Alice"
greeting = "Hello, %s" % name
print(greeting)  # 输出: Hello, Alice
# 使用字典进行格式化
person = {"name": "Bob", "age": 30}
print "%(name)s is %(age)d years old." % person
# 输出: Bob is 30 years old.

回调函数

在编程中,回调函数是一个通过函数名作为参数传递给其他函数的函数,然后在某个时间点被调用。
在Scrapy框架中,回调函数用于处理响应数据。每当Scrapy接收到一个响应(Response),它就会调用一个特定的函数来处理这个响应,这个函数就是回调函数。

yield scrapy.Request(url=new_url,callback=self.parse)  # 涉及回调函数callback=self.parse 是GET请求

小结

  • 为什么start_urls列表中的urL会被自动进行get请求的发送?
def start_requests(self):
    for u in self.start_urls:
        yield scrapy.Request(urlmu,callback=self.parse)

源码 :
在这里插入图片描述
在这里插入图片描述

  • 如何将start_urls中的urL默认进行post请求的发送?
-重写start_requests方法即可
def start_requests(self):
    for u in self.start_urls:
        yield scrapy.FormRequest(url=u,callback=self.parse,form_data=form_data)
内容概要:本文详细介绍了如何使用Matlab对地表水源热泵系统进行建模,并采用粒子群算法来优化每小时的制冷量和制热量。首先,文章解释了地表水源热泵的工作原理及其重要性,随后展示了如何设定基本参数并构建热泵机组的基础模型。接着,文章深入探讨了粒子群算法的具体实现步骤,包括参数设置、粒子初始化、适应度评估以及粒子位置和速度的更新规则。为了确保优化的有效性和实用性,文中还讨论了如何处理实际应用中的约束条件,如设备的最大能力和制冷/制热模式之间的互斥关系。此外,作者分享了一些实用技巧,例如引入混合优化方法以加快收敛速度,以及在目标函数中加入额外的惩罚项来减少不必要的模式切换。最终,通过对优化结果的可视化分析,验证了所提出的方法能够显著降低能耗并提高系统的运行效率。 适用人群:从事暖通空调系统设计、优化及相关领域的工程师和技术人员,尤其是那些希望深入了解地表水源热泵系统特性和优化方法的专业人士。 使用场景及目标:适用于需要对地表水源热泵系统进行精确建模和优化的情景,旨在找到既满足建筑负荷需求又能使机组运行在最高效率点的制冷/制热量组合。主要目标是在保证室内舒适度的前提下,最大限度地节约能源并延长设备使用寿命。 其他说明:文中提供的Matlab代码片段可以帮助读者更好地理解和复现整个建模和优化过程。同时,作者强调了在实际工程项目中灵活调整相关参数的重要性,以便获得更好的优化效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

胜天半月子

打不打商的无所谓,能帮到你就好

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值