16-多线程爬取糗事百科(python+Tread)

本文介绍了一个利用Python多线程技术爬取糗事百科网站内容的实例。通过创建专门的采集和解析线程,实现了高效的数据抓取与处理流程。文章详细展示了源代码及各部分功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

https://www.cnblogs.com/alamZ/p/7414020.html   课件内容

 

#_*_ coding: utf-8 _*_
'''
Created on 2018年7月17日
@author: sss
function: 利用多线程爬取糗事百科页面

'''
#使用线程库
import threading
#队列
from queue import Queue
#解析库
from lxml import etree
#json处理
import json
import time 
import requests
from pickle import FALSE

CRAWL_EXIT = False
PARSE_EXIT = False 

class TreadCrawl(threading.Thread):
    def __init__(self, threadName, pageQueue, dataQueue):
        #threading.Thread.__init__(self)
        #掉用父类初始化方法
        super(TreadCrawl, self).__init__()
        #线程名
        self.threadName = threadName
        #页码队列
        self.pageQueue = pageQueue
        #数据队列
        self.dataQueue = dataQueue
        #请求报头
        self.headers = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}
        
    def run(self):
        print('启动' + self.threadName)
        while not CRAWL_EXIT:
            try:
                #取出一个数字,先进先出
                #课选参数block,默认值为True
                #1.如果对列为空,block为True的话,不会结束,会进入阻塞转态,直到队列有新的数据
                #2.如果队列为空,block为false的话,就弹出一个Queue.empty()异常
                page = self.pageQueue.get(False)
                url = "http://www.qiushibaike.com/8hr/page/" + str(page) +"/"
                content = requests.get(url, headers = self.headers).text
                time.sleep(1)
                self.dataQueue.put(content)
            except:
                pass
        print('结束' + self.threadName)    

class ThreadParse(threading.Thread):
    def __init__(self, threadName, dataQueue, filename, lock):
#         print('parse')
        super(ThreadParse, self).__init__()
        #线程名
        self.threadName = threadName
        #数据队列
        self.dataQueue = dataQueue
        #保存解析后数据的文件名
        self.filename = filename 
        #锁
        self.lock = lock
    
    def run(self):
        print('启动' + self.threadName)
        while not PARSE_EXIT:
            try:
                html = self.dataQueue.get(False)
#                 print('0000000000000000000')
                self.parse(html)
            except:
                pass
        print('退出' + self.threadName)
    
    def parse(self, html):
        #解析为HTML DOM
        html = etree.HTML(html)
        
        node_list = html.xpath('//div[contains(@id, "qiushi_tag_")]')
#         print(node_list)
#         print('6666666666666')
        items = {}
        for node in node_list:
            #用户名
        #     username = node.xpath('./div/a/h2')[0].text
            username = node.xpath('.//h2')[0].text.replace('\n','')   #用replace去掉\n
            #图片连接
            image = node.xpath('.//img/@src')#[0]
            #取出标题下的内容
            content = node.xpath('./a/div/span')[0].text.replace('\n','')
            #点赞
            zan = node.xpath('./div/span/i')[0].text
            #评论
            comment = node.xpath('./div/span/a/i')[0].text
            
            items = {
                'username' : username,
                'image' : image,
                'content' : content,
                'zan' : zan,
                'comments' : comment
                }                  
            
            # with 后面有两个必须执行的操作:__enter__ 和 __exit__
            # 不管里面的操作结果如何,都会执行打开、关闭
            # 打开锁、处理内容、释放锁
            with self.lock:
                # 写入存储的解析后的数据
                self.filename.write(json.dumps(items, ensure_ascii = False) + "\n")
        print('已写入')    
            

def main():
    #页码队列,表示20个页面
    pageQueue = Queue(20)
    #放入1~20的数字,先进先出
    for i in range(1, 5):
        pageQueue.put(i)
        
    #采集的结果(每页的html原码)的数据队列,参数为空表示不限制
    dataQueue = Queue()
    
    #打开文件
    filename = open('./qiushi/duanzi.json', 'a', encoding='utf-8')

    #创建锁:
    lock = threading.Lock()
    
    #三个采集的名字
    crawlList = ['采集线程 1号','采集线程 2号','采集线程 3号']
    
    #存储三个采集线程的列表集合
    threadcrawl = []
    for threadName in crawlList:
        thread = TreadCrawl(threadName, pageQueue, dataQueue)
        thread.start()
        threadcrawl.append(thread)
        
    #三个解析线程的名字
    parseList = ['解析线程1号', '解析线程2号', '解析线程3号']
    #存储三个解析线程
    threadparse = []
    for threadName in parseList:
        thread = ThreadParse(threadName, dataQueue, filename, lock)
        thread.start()
        threadparse.append(thread)
    
    #等待pageQueue队列为空,也就是等待之前的操作执行完毕,
    while not pageQueue.empty():
        pass
    
    #如果pageQueue为空,采集线程退出循环
    global CRAWL_EXIT
    CRAWL_EXIT = True
    
    print('pageQueue为空')
    
    for thread in threadcrawl:
        thread.join()
        print(1)
        
    while not dataQueue.empty():
        pass
        
    global PARSE_EXIT
    PARSE_EXIT = True
    
    for thread in threadparse:
        thread.join()
        print('2')
    
    with lock:
        #关闭文件
        filename.close()
    print('谢谢使用!')

if __name__ == "__main__":
    main()
    
    
    
    
    
    

  

转载于:https://www.cnblogs.com/zhumengdexiaobai/p/9325573.html

<think>好的,我现在需要回答用户关于RT-Thread线程控制块的问题。首先,我需要确认自己对RT-Thread的了解程度。RT-Thread是一个开源的实时操作系统,广泛应用于嵌入式系统中。线程控制块(TCB)是操作系统中用于管理线程的重要数据结构,存储了线程的各种状态和信息。 用户可能想知道线程控制块的具体结构、包含哪些成员变量,以及这些变量如何管理线程的生命周期和状态。我需要回忆RT-Thread的文档或源码中的相关内容。记得在RT-Thread中,线程控制块通常由结构体struct rt_thread表示,这个结构体包含了线程的基本信息,如栈指针、状态、优先级、入口函数等。 接下来,我需要整理这些信息,并组织成一个清晰的回答。可能需要分点说明线程控制块的各个部分,比如线程栈、状态、优先级、时间片等。同时,要确保用中文表达准确,避免专业术语使用错误。此外,用户可能对线程的状态转换感兴趣,比如就绪、运行、挂起、关闭等状态之间的转换,这也需要涵盖。 还需要考虑用户可能的背景,他们可能是嵌入式开发者或学生,所以需要提供足够的细节,但不过于深入内核实现。可能需要举例说明线程控制块在实际应用中的作用,比如如何通过修改优先级来调整线程调度。 另外,要检查是否有最新的RT-Thread版本更新了线程控制块的结构,确保信息的准确性。如果有不确定的地方,可能需要查阅官方文档或源码进行确认。最后,确保回答结构清晰,易于理解,使用列表或分段来增强可读性。</think>以下是关于RT-Thread线程控制块(Thread Control Block, TCB)的详细介绍: --- ### **1. 核心结构定义** 在RT-Thread源码中,线程控制块通过`struct rt_thread`结构体实现(路径:`include/rtdef.h`),包含以下关键成员: ```c struct rt_thread { /* 线程栈相关 */ void *sp; // 当前栈指针 void *stack_addr; // 栈起始地址 rt_uint32_t stack_size; // 栈大小(字节) /* 线程状态管理 */ rt_uint8_t stat; // 当前状态(就绪/运行/挂起等) rt_uint8_t current_priority; // 当前实际优先级 rt_uint8_t init_priority; // 初始优先级 /* 调度控制 */ rt_uint32_t remaining_tick; // 剩余时间片(时钟节拍) rt_list_t tlist; // 线程链表节点(连接到就绪/等待队列) /* 线程函数 */ void (*entry)(void *parameter); // 线程入口函数 void *parameter; // 入口函数参数 /* 扩展功能 */ rt_ubase_t error; // 错误码 rt_uint8_t init_tick; // 初始时间片配置 ... }; ``` --- ### **2. 关键成员详解** #### **2.1 线程栈管理** | 成员 | 作用 | |----------------|---------------------------------------------------------------------| | `stack_addr` | 线程栈内存起始地址(需开发者显式分配或使用`rt_malloc`动态分配) | | `stack_size` | 栈空间大小(默认配置:主线程4KB,空闲线程256B,可通过`rtconfig.h`修改) | | `sp` | 实时更新的栈指针,用于上下文切换时保存/恢复寄存器状态 | **栈溢出检测**: 启用`RT_USING_OVERFLOW_CHECK`时,系统会在栈顶/栈底设置魔术字(如`0xCC`),定期校验防止溢出。 --- #### **2.2 线程状态机** ```mermaid stateDiagram-v2 [*] --> INITIALIZED: rt_thread_init()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值