scrapy练习_爬“糗事百科”

本文介绍了使用scrapy框架爬取糗事百科的过程,包括创建scrapy项目、设置User-Agent、爬取网页内容以及将数据保存到json文件。通过修改setting.py和pipelines.py文件,实现了数据的持久化存储。

scrapy练习_爬“糗事百科”

scrapy是一个爬虫用的脚手架,和用于搭建网站的vue差不多。具体我也不知道有什么用(~ _ ~ ")。

创建scrapy项目

首先创一个新建文件夹,之后打开jupyter notebook,虽然可以不打开,直接使用cmd,但是cmd的界面真是不太容易看,而且很乱。

  1. 在jupyter notebook界面中输入dir,确定我们进入了刚刚创建的文件夹中。
  2. 输入
 ! scrapy startproject qsbk

创建名为qsbk的scrapy项目
这样它就会为我们创建这样的脚手架(马赛克部分是后来的)
创建项目第一步

  1. 用“cd qsbk”进入自动创建的qsbk文件夹里
  2. 输入
! scrapy genspider qsbk_spider "qiushibaike.com"

创建名为"qsbk_spider"的py文件,后面是即将要爬的网站url,其实这个url后面也要改。
总的来说就是像这样
创建项目脚手架
于是我们就创建了这些文件,爬虫脚手架就搭建完成了。
脚手架搭建完成

先做个准备运动,还有一个小实验

首先找到setting.py,里面有很多被注释掉的代码,都是给你备用的。
找到"ROBOTSTXT_OBEY",这是一个“君子协议”——网页会规定一些你不能爬的东西,但是我不听 。这个"ROBOTSTXT_OBEY"默认是True,所以要改成False,表示你不遵守这些协议。如果你遵守那就真的没什么好爬的了。
setting
然后便是在下面找到"DEFAULT_REQUEST_HEADERS",加入User-Agent,要获得这个东西很简单。只要随便找一个网站,点击F12→Network→All→点击左边框框随便一个选项→然后拖到最下边,就能找到User-Agent。
获得User-Agent
点击ctrl+s保存。
接着进入spiders文件夹里的qsbk_spider.py文件里。里面原本的内容是这样的。

# -*- coding: utf-8 -*-
import scrapy

class QsbkSpiderSpider(scrapy.Spider):
    name = 'qsbk_spider'
    allowed_domains = ['qiushibaike.com']
    start_urls = ['http://qiushibaike.com/']

    def parse(self, response):
        pass

于是我们要先做一个实验。这是糗事百科的url:https://www.qiushibaike.com/text/page/1/。我们先改一改start_url里的内容。

import scrapy


class QsbkSpiderSpider(scrapy.Spider):
    name = 'qsbk_spider'
    allowed_domains = ['qiushibaike.com']
    start_urls = ['https://www.qiushibaike.com/text/page/1/']

    def parse(self, response):
        print('=' * 40)
        print(response)
        print('=' * 40)

这只是个实验,我们让它访问一下这个网页,看看它能返回什么。在jupyter notebook里输入

! scrapy crawl qsbk_spider

来运行这个代码,注意,此时你的位置必须在有"scrapy.cfg"这个文件的文件夹里才能运行,否则就会说“找不到crawl这个文件”,也可以输入

cd C:\Users\*****\Desktop\钉钉文件\scrapy\scrapy练习(糗事百科)\qsbk

来进入这个文件夹。多输入几次没关系的。
首次运行
返回状态码200,说明我们这个访问是成功的。

开始爬糗事百科

我们依旧是在qsbk_spider.py文件里进行工作,代码总的来说是这样的:

# -*- coding: utf-8 -*-
import scrapy


class QsbkSpiderSpider(scrapy.Spider):
    name = 'qsbk_spider'
    allowed_domains = ['qiushibaike.com']
    start_urls = ['https://www.qiushibaike.com/text/page/1/']

    def parse(self, response):
        # SelevtorList
        duanzidivs = response.xpath("//div[@id='content']/div/div[2]/div")
        for duanzidiv in duanzidivs:
            # Selevtor
            author = duanzidiv.xpath(".//h2/text()").get().strip()
            content = duanzidiv.xpath(".//div[@class='content']//text()").getall()
            # getall 提取信息并返回列表
            content = "".join(content).strip()
            print(author)
            print(content)

我使用xpath的方法来爬取数据,先把包住了所有故事和作者的版块爬下来,之后再一块一块爬。author是作者,content是内容。再用strip处理一下空格和回车。之后我们将它们输出。
首次输出
作者和内容都输出来了。那么接下来就是写入json文件。

写入json文件

piplines.py

打开pipelines.py文件,里面有一些代码。

class QsbkPipeline:
    def process_item(self, item, spider):
        return item

但是我们需要做一些修改:
总体来说就是这个样子。

import json

class QsbkPipeline:
    def __init__(self):
        self.fp = open("duanzi.json",'w',encoding='utf-8')

    def open_spider(self,spider):
        print('爬虫开始了···')

    def process_item(self, item, spider):
        item_json = json.dumps(item,ensure_ascii=False)
        self.fp.write(item_json + '\n')
        return item

    def close_spider(self,spider):
        self.fp.close()
        print('爬虫结束了···')

首先导入json库。

import json

之后打开一个json文件(没有它会自动创建,无需手动创建),方法是’w’写入,编码是’utf-8’。

def __init__(self):
        self.fp = open("duanzi.json",'w',encoding='utf-8')

爬虫打开来之后就会调用这个函数,我们输出一句“爬虫开始了”,表示自己正在爬。

def open_spider(self,spider):
        print('爬虫开始了···')

我们将爬虫爬到的数据处理成名为duanzi的字典,之后这个字典会自动传入到’item’这个参数中,把字典转为json文件。'ensure_ascii = False’用于保存中文。

    def process_item(self, item, spider):
        item_json = json.dumps(item,ensure_ascii=False)
        self.fp.write(item_json + '\n')
        return item

如果直接将dict类型的数据写入json文件中会发生报错,因此在将数据写入时需要用到json.dump()。'ensure_ascii = False’用于保存中文,没有的话,中文会用ASCII码进行编译。

最后别忘了关闭文件,然后说结束语。

    def close_spider(self,spider):
        self.fp.close()
        print('爬虫结束了···')
setting.py

找到setting.py文件,将这一段代码解封。这是一段确定优先级的代码。
在这里插入图片描述

qsbk_spider.py

回到qsbk_spider.py文件,将代码修改成这样。

# -*- coding: utf-8 -*-
import scrapy

class QsbkSpiderSpider(scrapy.Spider):
    name = 'qsbk_spider'
    allowed_domains = ['qiushibaike.com']
    start_urls = ['https://www.qiushibaike.com/text/page/1/']

    def parse(self, response):
        # SelevtorList
        duanzidivs = response.xpath("//div[@id='content']/div/div[2]/div")
        for duanzidiv in duanzidivs:
            # Selevtor
            author = duanzidiv.xpath(".//h2/text()").get().strip()
            content = duanzidiv.xpath(".//div[@class='content']//text()").getall()
            # getall 提取信息并返回列表
            content = "".join(content).strip()
            # 存入数据
            duanzi = {"author":author,"content":content}
            yield duanzi

把author和content做成一个字典。
yield是生成器,简单地说就是一个可以迭代的return。

点击运行

点击运行之后,就会像这样。json文件里全都是作者和内容。
json
呜啊啊啊啊啊

内容概要:本文详细介绍了一种基于Simulink的表贴式永磁同步电机(SPMSM)有限控制集模型预测电流控制(FCS-MPCC)仿真系统。通过构建PMSM数学模型、坐标变换、MPC控制器、SVPWM调制等模块,实现了对电机定子电流的高精度跟踪控制,具备快速动态响应和低稳态误差的特点。文中提供了完整的仿真建模步骤、关键参数设置、核心MATLAB函数代码及仿真结果分析,涵盖转速、电流、转矩和三相电流波形,验证了MPC控制策略在动态性能、稳态精度和抗负载扰动方面的优越性,并提出了参数自整定、加权代价函数、模型预测转矩控制和弱磁扩速等优化方向。; 适合人群:自动化、电气工程及其相关专业本科生、研究生,以及从事电机控制算法研究与仿真的工程技术人员;具备一定的电机原理、自动控制理论和Simulink仿真基础者更佳; 使用场景及目标:①用于永磁同步电机模型预测控制的教学演示、课程设计或毕业设计项目;②作为电机先进控制算法(如MPC、MPTC)的仿真验证平台;③支撑科研中对控制性能优化(如动态响应、抗干扰能力)的研究需求; 阅读建议:建议读者结合Simulink环境动手搭建模型,深入理解各模块间的信号流向与控制逻辑,重点掌握预测模型构建、代价函数设计与开关状态选择机制,并可通过修改电机参数或控制策略进行拓展实验,以增强实践与创新能力。
根据原作 https://pan.quark.cn/s/23d6270309e5 的源码改编 湖北省黄石市2021年中考数学试卷所包含的知识点广泛涉及了中学数学的基础领域,涵盖了实数、科学记数法、分式方程、几何体的三视图、立体几何、概率统计以及代数方程等多个方面。 接下来将对每道试题所关联的知识点进行深入剖析:1. 实数与倒数的定义:该题目旨在检验学生对倒数概念的掌握程度,即一个数a的倒数表达为1/a,因此-7的倒数可表示为-1/7。 2. 科学记数法的运用:科学记数法是一种表示极大或极小数字的方法,其形式为a×10^n,其中1≤|a|<10,n为整数。 此题要求学生运用科学记数法表示一个天文单位的距离,将1.4960亿千米转换为1.4960×10^8千米。 3. 分式方程的求解方法:考察学生解决包含分母的方程的能力,题目要求找出满足方程3/(2x-1)=1的x值,需通过消除分母的方式转化为整式方程进行解答。 4. 三视图的辨认:该题目测试学生对于几何体三视图(主视图、左视图、俯视图)的认识,需要识别出具有两个相同视图而另一个不同的几何体。 5. 立体几何与表面积的计算:题目要求学生计算由直角三角形旋转形成的圆锥的表面积,要求学生对圆锥的底面积和侧面积公式有所了解并加以运用。 6. 统计学的基础概念:题目涉及众数、平均数、极差和中位数的定义,要求学生根据提供的数据信息选择恰当的统计量。 7. 方程的整数解求解:考察学生在实际问题中进行数学建模的能力,通过建立方程来计算在特定条件下帐篷的搭建方案数量。 8. 三角学的实际应用:题目通过在直角三角形中运用三角函数来求解特定线段的长度。 利用正弦定理求解AD的长度是解答该问题的关键。 9. 几何变换的应用:题目要求学生运用三角板的旋转来求解特定点的...
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值