【Python】并发编程小记

原创已于 2024-04-02 21:15:37 修改 · 603 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

于 2022-04-10 19:59:23 首次发布

Python高级编程专栏收录该内容

1 篇文章

订阅专栏

本文探讨了多线程的轻量级特性与限制，GIL问题，以及线程安全的处理方法。接着介绍了线程池的优势和ThreadPoolExecutor的两种用法。对比了多进程的并行计算能力与资源消耗，最后剖析了协程（包括asyncio模块）在单线程中的并发实现和优缺点。

多线程

threading模块

利用多核CPU的能力，真正的并行执行任务
优点：比进程更轻量级，占用资源少
缺点：比起进程，只能并发，不能利用多CPU（GIL）;比起协程，启动数目有限制，占用内存资源，有线程切换开销

# 创建一个线程
import threading
# 创建一个线程对象
t = threading.Thread(target = func_name, args = (func_pattern))
# 启动线程
t.start()
# 等待结束
t.join()

线程安全：

某个函数，函数库在多线程环境中被调用时，可以正确的处理多个线程的共享变量
由于线程的执行随时会发生切换，就造成了不可预料的结果，出现了线程的不安全

# try-finally模式
lock = threading.Lock()
lock.acquire()
try:
    # do something 
finally:
    lock.release()

# with模式
lock = threading.Lock()
with lock:
    # do something

线程池

原理：新建线程系统需要分配资源，终止线程系统需要回收资源，如果重用线程，就可以减去新建，终止的开销
优点：
1. 提升性能，因为重复利用，减少新建，终止的开销
2. 适用突发性大量请求；需要大量线程完成任务且实际任务处理时间较短
3. 线程池数目可以固定，即可避免系统因线程过多，而系统负荷过大变慢
4. 代码优势：使用线程池语法比自己新建线程执行线程更简洁

# ThreadPoolExcecutor两个用法
from concurrent.futures import ThreadPoolExecutor,as_completed

# 用法一
# map函数，注意map的结果和入参是顺序对应的
with ThreadPoolExecutor() as pool:

    results = pool.map(craw,urls)

    for result in results:
       print(result)

#用法二
# future模式，更强大，注意如果用as completed顺序是不定的
with ThreadPoolExecutor() as pool:

    futures = [ pool.submit(craw,url)
                for url in urls ]

    for future in futures:
        print(future.result())
    for future in as_completed(futures):
        print(future.result())

多进程

利用CPU和IO可以同时执行的原理
优点：可以利用多核CPU并行运算
缺点：占用资源最多，可启动数目比线程少

multiprocessing模块:该模块提供的多进程机制，可以实现并行计算，利用多核CPU优势

协程

在单线程内实现并发
核心原理: 用一个while True循环，配合IO多路复用原理（IO时CPU可以做别的）

多协程

asyncio模块

在单线程利用CPU和IO同时执行的原理，实现函数异步执行
优点：内存开销少，启动协程数目最多
缺点：支持的库有限制，代码实现复杂
注意：在异步IO编程中，依赖的库必须支持异步IO特性(requests 不支持异步，需要用aiohttp)

import asyncio
# 获取事件循环[相当于while true]
loop = asyncio.get_event_loop()

# 定义协程
async def myfunc(url):
# await表示不进行阻塞，直接进行下一个程序的执行
    await get_url(url)

# 创建task列表
tasks = [loop.create_task(myfunc(url) for url in urls)]

# 执行爬虫事件列表，执行直到完成
loop.run_until_complete(asyncio.wait(tasks))