这段时间学习了Python3的一些基础内容
Python简单操作符
+ - (加、减)
= (等于)
// (所谓“地板除(法)”) ==>既是:整数除以整数
% (求余)* (乘法)** (幂运算)
Python的循环
for循环
while循环
Python的函数,对象,模块
列表
元组
字典
Python文件
读
写
保存
修改
通过学习python的一些基础内容,了解了一些Python的基本用法,可以简单的去用Python来去让电脑计算一些我们人要求的算法或文件。通过循环我们可以让计算机短时间计算一些超级大数而且是可以连续不断的运算;通过函数,对象及模块我们可以与计算机进行人机交流,可以让计算机计算或生成我们人类想要表达的愿望或想法,可以让计算机存储成倍且不易丢失的数据或内容。通过文件我们可以让计算机做成一个我们想要的软件,或是通过。
三、爬虫入门
四使用spider爬虫过程:
1 在安装好Java和burpsuite的前提下,并在相关浏览器上设置好相关代理。接下来打开burpsuite,如图:
2然后我们就可以在地址栏输入我们要进行的网址并回车,此时我们再打开Burp Suite,选择Proxy我们就可以看到已经开始建立代理监听,我们此时鼠标右键选择第一个Send to Spider开始进行爬虫,
3我们点击Spider可以看到已经开始进行了
4我们也可以按Target查看。
爬虫二
- 创建一个Scrapy项目
一般我建议在学习或者工作目录下单独建立一个目录来存放某一个特定学习项目或者文档(建议而已),直接上命令
scrapy startproject first_spider
#命令串解释:命令 创建新项目的动作 项目名称(随便起)
建立好之后我们会看到项目结构如下(划掉的部分为后面写的爬虫文件以及爬虫爬取到的文件,初始没有的)
目录中部分函数的作用
scrapy.cfg: 项目的配置文件
first_spider/: 该项目的python模块。之后您将在此加入代码。
first_spider/items.py: 项目中的item文件.
first_spider/pipelines.py: 项目中的pipelines文件.
first_spider/settings.py: 项目的设置文件.
- 定义Item
Item 是保存爬取到的数据的容器;其使用方法和python字典类似, 并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。
首先根据需要从runoob.com获取到的数据对item进行建模。 我们需要从根据爬虫获取名字,url,以及网站的描述。 对此,在item中定义相应的字段。编辑 first_spider目录中的 items.py 文件
- 编写第一个爬虫(Spider)来爬取网页
为了创建一个Spider,必须要继承 scrapy.Spider 类, 且定义以下三个属性
name: 用于区别Spider。 该名字必须是唯一的,您不可以为不同的Spider设定相同的名字。到时候我们启动爬虫就根据这个名字来的
start_urls: 包含了Spider在启动时进行爬取的url列表。 因此,第一个被获取到的页面将是其中之一。 后续的URL则从初始的URL获取到的数据中提取
parse() 是spider的一个方法。 被调用时,每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。 该方法负责解析返回的数据(response data),提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象