python--小总结，scrapy框架

最新推荐文章于 2023-10-10 00:00:00 发布

原创最新推荐文章于 2023-10-10 00:00:00 发布 · 265 阅读

0 ·

CC 4.0 BY-SA版权

python基础必会：

常用的数据类型：

tuple

list

set

dict

range

str

分片 [::]

推倒

函数：

def 函数名(参数)

实现函数体

难点：

参数的种类：

必须参数：必填的参数
默认参数：参数
关键参数：通过参数名称等约名称
可变参数：tuple：*参数名称 dict：**kwargs

建议：默认参数一定要在必须参数之后定义，可变参数一定要定义在最后
tuple的可变参数要在字典的可变参数之前

函数的种类：

内部函数：
外部函数：
匿名函数：lambda
用户自定义函数：

装饰函数：

函数总是要返回，如果没有return None 总是被返回

面向对象：

对象：已存在可被使用的实例万物皆对象函数模块变量类方法都是对象
class：描述其他实例信息的对象
属性：定义其他实例特征的对象
方法：定义其他实例行为的对象
与函数的区别：
函数可独立定义和调用
方法不能独立定义也不能独立调用
staticmethod：
classmedthod：

例：
stu = Student()
stu.jump=lambda x:print("你跳了{0}米".format(x))

stu.jump(1.2)

常用模块：

re 正则
xml.... 解析
time 时间模块
socket
threading 线程
random 随机数
pickle 序列化
os
sys

scrapy执行流程：

引擎从调度器中取出一个链接(URL)用于接下来的抓取------>引擎把URL封装成一个请求(Request)传给下载器------> 下载器把资源下载下来，并封装成应答包(Response)-----> 爬虫解析Response------->解析出实体（Item）,则交给实体管道进行进一步的处理-----> 解析出的是链接（URL）,则把URL交给调度器等待抓取