- 博客(7)
- 收藏
- 关注
原创 多进程,多线程与协程之多进程
在了解线程,进程与协程时,我们先来了解一下操作系统的原理。操作系统具有四大特点,分别是并发,共享,虚拟,异步。我们能在电脑上同时开启多个程序,比如一边玩游戏一边听音乐。实际上,在单核电脑(多核操作系统除外)中,电脑无法真正同时运行两个程序。从宏观视角看,电脑仿佛能同时运行多个程序;但从微观层面而言,这是 CPU 依据特定调度算法,将资源分配给进程(进程是 CPU 分配资源的基本单位),然后 CPU 在不同线程间来回切换,让多个程序得以交替执行。
2025-03-15 21:49:57
452
原创 爬虫框架:scrapy入门
yield 的作用就是把一个函数变成一个生成器(generator),带有yield的函数不再是一个普通函数,Python解释器会将其视为一个generator;在一个函数中,程序执行到yield语句的时候,程序暂停,返回yield后面表达式的值,在下一次调用的时候,从yield语句暂停的地方继续执行,如此循环,直到函数执行完。蜘蛛是你定义的类,Scrapy用来从网站获取信息,必须是子类Spider定义要发出的初始请求,可以选择跟踪页面中的链接,以及解析获取到的内容以提取有效的数据。
2025-02-10 22:27:31
1736
原创 爬虫框架:Scrapy介绍
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy 使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下:引擎(Scrapy)
2025-02-06 15:14:03
3256
原创 正则表达式:re常用的几个函数
标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。如果是外面的括号包着里面的,那么group(1)会输出外面的大括号。匹配成功re.search方法返回一个匹配的对象,否则返回None。参见:正则表达式修饰符 - 可选标志。
2025-01-24 17:50:35
416
原创 正则表达式:教你使用re模块
1.验证客户端用户输入的数据是否符合规范2.爬取到网页内容后,精准挑选出我们要的信息3.在一个文件中,找到含有itcast的语句。
2025-01-24 17:24:07
455
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人