python学习(二)爬虫——爬取网站小说并保存为txt文件(三)

本文介绍了如何使用Python的threading模块提高爬虫的效率,通过多线程爬取小说并保存为TXT文件。文章详细讲解了线程同步、锁的使用以及如何处理线程中的数据不同步问题,最终实现高效的小说下载。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

python上一篇写了怎样获取整本小说并写入文件,但是速度实在太慢,这一篇我们使用多线程来提高爬取速度

一:多线程模块 threading

  1. 创建线程

    创建线程有两种方法
    第一种是继承threading.Thread类,并重写它的init和run函数
    代码如下:

import threading

class gettext(threading.Thread):
    def __init__(self,threadName):
        #调用父类的构造函数
        threading.Thread.__init__(self)
        self.threadName = threadName

    def run(self):
        print(self.threadName)

这里的self是一个指向当前对象的指针,用它来进行初始化和调用成员变量

将类定义好后,就可以创建线程了,代码如下:

#保存所有线程的列表
threads = []

#创建5个线程
for i in range(5):
    #创建一个线程
    thread = gettext('Thread-'+str(i))
    #将创建好的线程添加到线程列表
    threads.append(thread)
    #启动线程
    thread.start()

#等待所有线程结束
for t in threads:
    t.join()

print('线程结束')

运行结果:
示例1


这和预期的输出有点不同:
示例2


这是由于线程不同步造成的,在程序中输出流只有一个,但是线程却有多个,而且线程又是同时运行的,所以就会出现多个线程同时访问同一个资源的情况。
所以在使用多线程的时候,我们要对共有资源的访问加以限制,使得同时只能有一个线程访问。就像一把锁一样,在有线程访问资源的时候把资源锁起来不让其他线程访问,等到当前线程结束对共有资源的操作后再把锁打开,让其他线程可以访问。

如果多个线程共同对某个数据修改,则可能出现不可预料的结果,为了保证数据的正确性,需要对多个线程进行同步。

使用 Thread 对象的 Lock 和 Rlock 可以实现简单的线程同步,这两个对象都有 acquire 方法和 release
方法,对于那些需要每次只允许一个线程操作的数据,可以将其操作放到 acquire 和 release 方法之间。如下:

多线程的优势在于可以同时运行多个任务(至少感觉起来是这样)。但是当线程需要共享数据时,可能存在数据不同步的问题。

考虑这样一种情况:一个列表里所有元素都是0,线程”set”从后向前把所有元素改成1,而线程”print”负责从前往后读取列表并打印。

那么,可能线程”set”开始改的时候,线程”print”便来打印列表了,输出就成了一半0一半1,这就是数据的不同步。为了避免这种情况,引入了锁的概念。

锁有两种状态——锁定和未锁定。每当一个线程比如”set”要访问共享数据时,必须先获得锁定;如果已经有别的线程比如”print”获得锁定了,那么就让线程”set”暂停,也就是同步阻塞;等到线程”print”访问完毕,释放锁以后,再让线程”set”继续。

经过这样的处理,打印列表时要么全部输出0,要么全部输出1,不会再出现一半0一半1的尴尬场面。

这里的锁就是threading的Lock方法,代码如下:

import threading

class gettext(threading.Thread):
    def __init__(self,thread
Python爬虫基础案例通常从简单的网页抓取开始,比如爬取猫眼电影的数据。这里以`requests`库获取网页内容,然后用`BeautifulSoup`解析HTML,提取所需信息,通过`pandas`将数据保存到Excel文件为例: 首先,你需要安装必要的库: ```bash pip install requests beautifulsoup4 pandas openpyxl ``` 下面是一个基本的Python爬虫脚本示例,假设我们要爬取电影名称、评分和主演信息: ```python import requests from bs4 import BeautifulSoup import pandas as pd # 爬取URL url = "https://maoyan.com/board/4" response = requests.get(url) # 解析HTML soup = BeautifulSoup(response.text, 'lxml') # 查找需要的数据元素,这里假设电影列表在class为'movie-list' movies_data = soup.find_all(class_='movie-list') # 创建空列表存储数据 data_list = [] # 遍历每部电影 for movie in movies_data: title = movie.find('a', class_='title').text rating = movie.find('i', class_='rating_num')['title'] stars = ', '.join(movie.find_all('span', class_='name')) # 将数据添加到列表 data_list.append([title, rating, stars]) # 将数据转换为DataFrame df_movies = pd.DataFrame(data_list, columns=['电影名称', '评分', '主演']) # 保存到Excel文件 filename = '猫眼电影数据.xlsx' df_movies.to_excel(filename, index=False) ``` 这个例子中,爬虫会定期访问指定的猫眼电影页面,提取每个电影的基本信息,然后将其保存到一个名为`猫眼电影数据.xlsx`的Excel文件中。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值