python3总结和spider爬虫

这篇博客总结了Python3的基础知识,包括操作符、循环、函数、对象、模块、数据结构以及文件操作。还介绍了如何入门爬虫,涉及Burp Suite的代理设置和Scrapy项目的创建。通过实例讲解了如何定义Item、编写爬虫以及start_urls和parse方法的使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这段时间学习了Python3的一些基础内容

Python简单操作符
+ - (加、减)
= (等于)
// (所谓“地板除(法)”) ==>既是:整数除以整数
% (求余)* (乘法)** (幂运算)

Python的循环

   for循环

    while循环

Python的函数,对象,模块
列表
元组
字典

Python文件


保存
修改
通过学习python的一些基础内容,了解了一些Python的基本用法,可以简单的去用Python来去让电脑计算一些我们人要求的算法或文件。通过循环我们可以让计算机短时间计算一些超级大数而且是可以连续不断的运算;通过函数,对象及模块我们可以与计算机进行人机交流,可以让计算机计算或生成我们人类想要表达的愿望或想法,可以让计算机存储成倍且不易丢失的数据或内容。通过文件我们可以让计算机做成一个我们想要的软件,或是通过。

三、爬虫入门

四使用spider爬虫过程:

1 在安装好Java和burpsuite的前提下,并在相关浏览器上设置好相关代理。接下来打开burpsuite,如图:

在这里插入图片描述
在这里插入图片描述

2然后我们就可以在地址栏输入我们要进行的网址并回车,此时我们再打开Burp Suite,选择Proxy我们就可以看到已经开始建立代理监听,我们此时鼠标右键选择第一个Send to Spider开始进行爬虫,

在这里插入图片描述
3我们点击Spider可以看到已经开始进行了

在这里插入图片描述

4我们也可以按Target查看。

在这里插入图片描述

爬虫二

  1. 创建一个Scrapy项目

一般我建议在学习或者工作目录下单独建立一个目录来存放某一个特定学习项目或者文档(建议而已),直接上命令

scrapy startproject first_spider
#命令串解释:命令 创建新项目的动作 项目名称(随便起)

建立好之后我们会看到项目结构如下(划掉的部分为后面写的爬虫文件以及爬虫爬取到的文件,初始没有的)

在这里插入图片描述

目录中部分函数的作用

scrapy.cfg: 项目的配置文件
first_spider/: 该项目的python模块。之后您将在此加入代码。
first_spider/items.py: 项目中的item文件.
first_spider/pipelines.py: 项目中的pipelines文件.
first_spider/settings.py: 项目的设置文件.

  1. 定义Item
    Item 是保存爬取到的数据的容器;其使用方法和python字典类似, 并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。

首先根据需要从runoob.com获取到的数据对item进行建模。 我们需要从根据爬虫获取名字,url,以及网站的描述。 对此,在item中定义相应的字段。编辑 first_spider目录中的 items.py 文件

  1. 编写第一个爬虫(Spider)来爬取网页
    为了创建一个Spider,必须要继承 scrapy.Spider 类, 且定义以下三个属性

name: 用于区别Spider。 该名字必须是唯一的,您不可以为不同的Spider设定相同的名字。到时候我们启动爬虫就根据这个名字来的

start_urls: 包含了Spider在启动时进行爬取的url列表。 因此,第一个被获取到的页面将是其中之一。 后续的URL则从初始的URL获取到的数据中提取

parse() 是spider的一个方法。 被调用时,每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。 该方法负责解析返回的数据(response data),提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值