Python单线程/多线程

本文解释了Python中多线程的工作原理,指出由于全局解释器锁(GIL)的存在,多线程并不能实现真正的并行计算。通过示例说明多线程在I/O密集型任务中的优势,并介绍了join()函数的使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 Python里的多线程是假的多线程,不管有多少核,同一时间只能在一个核中进行操作

利用Python的多线程,只是利用CPU上下文切换的优势,看上去像是并发,其实只是单线程

import threading
import time


def test1():
    for i in range(10000000):
        a = 100 - i


def test2():
    threads = []
    t1 = threading.Thread(target=test1)  #创建一个线程,target代表要指定执行什么
    t2 = threading.Thread(target=test1)
    t3 = threading.Thread(target=test1)
    t4 = threading.Thread(target=test1)
    threads.append(t1)  #把线程放到list里面
    threads.append(t2)
    threads.append(t3)
    threads.append(t4)

    threads[0].start()  #启动这个线程
    threads[1].start()
    threads[2].start()
    threads[3].start()

    threads[0].join()  #主线程等待子线程
    threads[1].join()
    threads[2].join()
    threads[3].join()


if __name__ == '__main__':
    t1 = time.time()
    test1()
    print('单线程一次:', time.time() - t1)  # 单线程一次: 0.5700154304504395
    test1()
    print('单线程两次:', time.time() - t1)  # 单线程两次: 1.1943449974060059
    test1()
    print('单线程三次:', time.time() - t1)  # 单线程三次: 1.8057115077972412
    test1()
    print('单线程四次:', time.time() - t1)  # 单线程四次: 2.410094738006592
    t2 = time.time()
    test2()
    print('多线程四次:', time.time() - t2)  # 多线程四次: 2.4066476821899414

多线程执行时间   约等于    单线程执行时间,可见多线程并没有提高效率。

多线程执行的本质就是  各线程交替轮番执行,和谐的随机在单核上执行。

多线程有什么用?

解决I/O阻塞问题I/O占用时CPU闲置问题

 I/O操作不占用CPU ,计算操作占CPU。

举例:

接口A处理需要花费10s

接口B处理需要花费5s

接口C处理需要花费2s

三个用户(几乎同时):小红请求A接口,小明请求B接口,小张请求C接口

单线程下:

小红10s收到结果,小明15s收到结果,小张17s收到结果

多线程下:

小红13s收到结果,小明7s收到结果,小张3s收到结果

Python应用多线程的根本目的:使程序交替轮番执行,不会对后边的程序产生阻塞。

注意:多线程提升不了CPU的处理效率,只能提供调用CPU的方案

所以如果运行瓶颈不在CPU运算而在I/O上,多线程显然很划算。

拓展:Python多线程中 join() 的用法

import threading
import time

def run():
    time.sleep(2)
    print('当前线程的名字是: ', threading.current_thread().name)
    time.sleep(2)


if __name__ == '__main__':

    start_time = time.time()

    print('这是主线程:', threading.current_thread().name)
    thread_list = []
    for i in range(5):
        t = threading.Thread(target=run)
        thread_list.append(t)

    for t in thread_list:
        t.start()

    print('主线程结束了!' , threading.current_thread().name)
    print('一共用时:', time.time()-start_time)

join的作用:

import threading
import time

def run():

    time.sleep(2)
    print('当前线程的名字是: ', threading.current_thread().name)
    time.sleep(2)


if __name__ == '__main__':

    start_time = time.time()

    print('这是主线程:', threading.current_thread().name)
    thread_list = []
    for i in range(5):
        t = threading.Thread(target=run)
        thread_list.append(t)

    for t in thread_list:
        t.setDaemon(True)
        t.start()

    for t in thread_list:
        t.join()

    print('主线程结束了!' , threading.current_thread().name)
    print('一共用时:', time.time()-start_time)

 作用:主线程一直等待全部的子线程结束之后,主线程自身才结束,程序退出。

参考:python是单线程的,多线程有意义么_fangxiananvhai的博客-优快云博客_python为什么是单线程

Python多线程与多线程中join()的用法 - cnkai - 博客园

<think>我们正在讨论如何使用Python实现多线程或多进程来消费Kafka消息。根据引用[1],我们可以使用kafka-python库来创建Kafka消费者。同时,引用[2][3]提到了多线程消费Kafka的情况,但需要注意的是,Kafka消费者本身不是线程安全的,因此不能直接在多个线程中共享同一个消费者实例。但是,我们可以通过创建多个消费者实例(每个线程一个)来实现多线程消费,或者使用进程(每个进程一个消费者)来实现多进程消费。下面我将分别介绍多线程多进程的实现方式,并给出代码示例。1.多线程消费Kafka思路:创建多个消费者线程,每个线程运行一个独立的Kafka消费者实例,订阅相同的topic(或不同的topic,根据需求),并消费消息。注意,如果多个消费者属于同一个消费者组,那么它们会协同消费同一个topic的不同分区,实现负载均衡;如果属于不同的组,则每个消费者都会收到所有消息(广播模式)。2.多进程消费Kafka思路:与多线程类似,每个进程运行一个独立的Kafka消费者实例。由于进程间内存隔离,这种方式更安全,但进程间通信资源消耗相对较大。在实现之前,请确保已经安装kafka-python库:pipinstallkafka-python下面是一个多线程消费的示例代码。我们假设要消费多个topic,并且每个线程消费一个topic(或者多个线程共同消费同一个topic的不同分区,这里我们按同一个消费者组来消费多个topic,每个线程处理一个topic的消息)。但注意,实际上一个消费者可以同时订阅多个topic,而多线程通常用于提高处理消息的能力(每个线程处理一个分区或一个topic的消息)。这里我们展示每个线程负责一个topic的场景。然而,更常见的做法是让多个线程(每个线程一个消费者实例)共同消费同一个topic(可能包含多个分区),因为Kafka的分区机制可以支持多个消费者并行消费。但为了灵活性,我们也可以让每个线程处理不同的topic。以下代码示例中,我们创建多个线程,每个线程负责消费一个指定的topic(也可以一个线程消费多个topic,但这里为了简单,每个线程一个topic)。注意:如果多个线程属于同一个消费者组,那么同一个topic的消息会被分配到不同线程(消费者)上(按分区分配),而不同topic的消息则会被不同的线程处理。但是,请注意:一个消费者组可以订阅多个topic,每个消费者(线程)会分配到组内订阅的所有topic中的某些分区。因此,如果希望每个topic由独立的消费者组处理,那么应该为每个topic创建独立的消费者组(即每个线程使用不同的group_id)?这取决于需求。不过,通常我们可能希望同一个消费者组内的消费者共同消费多个topic,那么每个消费者可能会同时消费多个topic的消息。因此,我们有两种设计:设计1:每个线程(消费者)只消费一个topic,并且使用不同的消费者组(这样每个topic的消息都会被独立消费,互不影响)。设计2:所有线程属于同一个消费者组,共同消费多个topic(这样每个线程可能会消费多个topic的消息,需要在线程内部根据消息的topic进行分发处理)。根据问题,用户希望消费多个topic,所以我们采用设计2:同一个消费者组同时消费多个topic,多个消费者线程共同处理这些topic的消息。但是,如果希望每个topic由专门的线程处理,我们可以为每个topic创建一个消费者组,然后每个消费者组启动一个或多个线程(每个线程一个消费者实例)来消费该topic。这样不同topic之间互不影响。这里我们先展示设计2(同一个消费者组,多个线程共同消费多个topic)的代码。注意:由于Kafka消费者不是线程安全的,所以我们每个线程创建自己的消费者实例,并且这些消费者属于同一个消费者组。多线程示例(同一个消费者组,每个线程一个消费者实例,共同消费多个topic):注意:Kafka会为同一个消费者组内的消费者分配订阅的topic的分区。因此,多个线程(多个消费者实例)会共同分担所有topic的所有分区的消息。然而,如果希望每个线程只处理特定的topic,那么我们需要在消费者线程内部根据消息的topic进行过滤,将不属于该线程的topic的消息忽略?但这样会造成浪费(因为消息已经被消费了,只是被忽略)。所以更好的做法是每个线程只订阅自己关心的topic(即每个消费者实例只订阅一个topic,并且使用不同的消费者组)。这样每个线程只接收自己订阅的topic的消息。因此,我们调整方案:为每个topic创建一个独立的消费者组,并启动一个线程(或多个线程,如果该topic有多个分区)来消费。这样每个线程只处理一个topic。下面我们分别给出两种方式的示例。方式一:同一个消费者组,多个线程共同消费多个topic(每个线程可能处理多个topic的消息,需要根据topic进行判断)方式二:每个topic一个消费者组,每个topic使用一个线程(或多个线程)消费。由于问题中没有明确,我们这里选择方式一(因为引用[1]中提到消费多个topic,通常使用同一个消费者组订阅多个topic)方式二(每个topic独立)都会给出。先给出方式一(同一个消费者组)的代码:注意:在同一个消费者组中,每个消费者实例(每个线程)会分配到多个topic中的一些分区。因此,每个线程都会收到不同topic的消息。我们需要在线程内部根据消息的topic进行不同的处理。示例代码(方式一):</think>### 如何使用Python实现多线程/多进程消费Kafka消息 在Python中实现多线程或多进程消费Kafka消息,主要使用`kafka-python`库。以下是两种高效实现方式: #### 一、多线程消费实现 Kafka消费者非线程安全,需为每个线程创建独立消费者实例。推荐使用线程池管理消费者: ```python from kafka import KafkaConsumer from concurrent.futures import ThreadPoolExecutor def consume_topic(topic): consumer = KafkaConsumer( topic, bootstrap_servers='localhost:9092', group_id='my-group', auto_offset_reset='earliest' ) for message in consumer: print(f"Thread-{topic}: {message.value.decode('utf-8')}") if __name__ == "__main__": topics = ['topic1', 'topic2', 'topic3'] # 要消费的topic列表 with ThreadPoolExecutor(max_workers=len(topics)) as executor: executor.map(consume_topic, topics) ``` **关键点:** 1. 每个线程独立消费者实例 2. 线程数通常等于topic数量 3. 相同`group_id`实现负载均衡[^1] 4. 使用`auto_offset_reset`控制起始位置 #### 二、多进程消费实现 多进程更适合CPU密集型处理,利用`multiprocessing`模块: ```python from kafka import KafkaConsumer from multiprocessing import Process def process_consumer(topic): consumer = KafkaConsumer( topic, bootstrap_servers='localhost:9092', group_id='multi-process-group' ) for msg in consumer: # 执行CPU密集型处理 result = heavy_processing(msg.value) print(f"Process-{topic}: {result}") if __name__ == "__main__": topics = ['logs', 'metrics', 'events'] processes = [] for topic in topics: p = Process(target=process_consumer, args=(topic,)) p.start() processes.append(p) for p in processes: p.join() ``` **优势:** 1. 避免GIL限制,提升CPU利用率 2. 进程间完全隔离,更高容错性 3. 适合长时间运行任务[^2] #### 三、高级优化技巧 1. **动态分区分配** 使用`consumer.partitions_for_topic()`获取分区信息,实现精细控制 ```python partitions = consumer.partitions_for_topic('target_topic') consumer.assign([TopicPartition('target_topic', p) for p in partitions]) ``` 2. **批量提交偏移量** 启用`enable_auto_commit=False`手动提交: ```python batch_size = 100 for i, msg in enumerate(consumer): if i % batch_size == 0: consumer.commit() ``` 3. **消费者心跳配置** 防止被误认为离线: ```python consumer = KafkaConsumer( ..., session_timeout_ms=30000, heartbeat_interval_ms=5000 ) ``` #### 四、性能对比表 | 方式 | 适用场景 | 吞吐量 | 资源消耗 | 复杂度 | |------------|------------------|--------|----------|--------| | 单线程 | 低流量测试 | 低 | 低 | ★☆☆☆☆ | | **多线程** | I/O密集型任务 | 高 | 中 | ★★★☆☆ | | **多进程** | CPU密集型处理 | 极高 | 高 | ★★★★☆ | | 协程 | 超高并发连接 | 极高 | 极低 | ★★★★★ | > **实际建议**:多数场景优先选择多线程方案,仅在CPU处理成为瓶颈时使用多进程[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值