异步与多进程_异步和多进程-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_48232453/article/details/145177069

一、何为异步

在这里，异步（asynchronous）指的是将计算任务分发给后台任务队列（比如 Celery），这些任务会由多个**工作进程（worker）**并行处理，而不是依赖于主程序按顺序逐一完成。通过这种方式，可以显著提高并发能力和效率。下面具体解释为什么异步能提高效率。

1. 异步的原理

异步的核心在于任务分发和后台执行：

任务分发：
- 主程序将需要执行的任务封装后，交给任务队列（比如 RabbitMQ、Redis 等）。
- 主程序不需要等待任务完成，可以继续处理其他逻辑。
后台执行：
- Celery 的 worker 进程会从任务队列中拉取任务，并独立执行这些任务。
- 如果有多个 worker，可以同时处理多个任务（并行）。
并行 vs. 顺序：
- 顺序（同步）: 主程序需要等待一个任务完成后才能继续下一个任务。
- 并行（异步）: 多个任务被同时处理，从而减少了整体执行时间。

2. 异步如何提高并发能力和效率

并发处理

假设有 100 个电厂需要计算准确率，单个计算耗时 5 秒：
- 同步执行：需要按顺序处理所有任务，总耗时 100×5=500100 \times 5 = 500 秒。
- 异步执行：假设有 10 个 worker，每个 worker 同时处理一个任务，总耗时约为 ⌈10010⌉×5=50\lceil \frac{100}{10} \rceil \times 5 = 50 秒。
通过多个 worker 并行处理任务，大幅缩短了总执行时间。

资源利用

同步执行: 主程序被单个任务阻塞，即使 CPU 或 I/O 有空闲资源，也无法利用。
异步执行: 多个 worker 并行运行，充分利用 CPU 和 I/O 资源。

任务分布

计算密集型任务

（如复杂算法、数据分析）：
- 异步让计算分布到不同 CPU 核心，提高效率。
I/O 密集型任务

（如文件读写、数据库查询）：
- 异步避免等待 I/O 完成，释放资源去处理其他任务。

3. 异步在代码中的体现

在代码中，异步通过 Celery 的 apply_async 方法实现：

def main(x,y,z):...

def async_task():
	main.apply_async(args=[x,y,z])

作用：
- 主任务 async_task 将 main 的任务封装并提交到 Celery 队列中。
- 提交后，主任务无需等待任务完成，而是继续提交下一个任务或执行其他逻辑。
异步执行：
- Celery 的 worker 会在后台拉取并执行任务 main。
- 多个 worker 可以同时处理不同的电厂计算任务。

4. 异步的实际效率提升（示意图）

任务序号	任务时间（秒）	同步执行时间（秒）	异步执行时间（秒，10 worker）
1	5	5	5
2	5	10	5
…	…	…	…
100	5	500	50

从中可以看到，异步通过并行处理显著减少了总耗时。

5. 异步的挑战

虽然异步可以提高效率，但也有一些需要注意的地方：

任务调试：
- 异步任务分散在 worker 中，调试可能变得复杂。
- 需要使用日志（如 logger.info）追踪任务执行情况。
任务失败处理：
- 异步任务可能失败（如数据库异常、网络错误），需要设置重试机制。
- Celery 提供 retry 参数可以自动重试失败任务。
任务队列管理：
- 如果任务队列过载（任务太多，worker 太少），可能导致延迟。
- 需要根据业务需求动态调整 worker 数量。

6. 总结

异步通过任务分发到后台 worker 并行处理，显著提升了并发能力和效率。它的主要优势在于：

避免主线程阻塞，提高资源利用率。
支持并行处理任务，减少任务的总执行时间。

这种异步执行的模式与多进程并发非常相似，本质上也是利用多进程或多线程来实现任务的并行处理。

二、异步与多进程

1. 异步任务和多进程的相似之处

并行执行：
- 异步任务和多进程都通过分配多个工作单元（worker 或进程）来并行处理任务。
- 在例子中，100 个电厂的任务被分配到 10 个 worker 或进程处理。
资源利用：
- 多进程通过操作系统内核创建多个独立的进程，每个进程有自己的内存空间，可以充分利用多核 CPU。
- 异步任务也通常依赖多进程（或线程）模型（例如 Celery 的 worker 就可以运行在多进程模式下），从而提高并发能力。
分工模式：
- 任务队列（异步任务）会将任务分配给不同的 worker，类似于将任务分配给不同的进程。
- 多进程也可以通过任务分发机制（例如 multiprocessing.Pool）实现任务分配。

2. 异步任务和多进程的区别

特性	异步任务（如 Celery）	多进程（如 Python 的 multiprocessing）
任务管理	自动化：Celery 提供任务队列、调度、任务失败重试等功能。	手动：需要自己写代码分发任务、收集结果。
任务调度	支持延时任务、周期性任务。	通常需要自己设计调度逻辑。
适用场景	适合处理分布式任务、大规模任务，支持异步和并行。	适合单机的并行计算，更多用于本地任务加速。
任务持久化	支持任务队列（如 Redis/RabbitMQ），任务可以持久化。	不支持任务持久化，程序退出后任务丢失。
部署复杂度	较高：需要配置任务队列和 worker 环境。	较低：直接运行 Python 代码即可。
进程数量	Celery 的 worker 数量可以动态调整，通常与多进程模式结合。	自行决定进程数量，通常通过 `multiprocessing.Pool`。

3. 使用多进程模拟场景

假如不用 Celery，而是使用 Python 的 multiprocessing.Pool 实现类似功能，可以这样写：

from multiprocessing import Pool
import time

def calculate_accuracy(powerplant_id):
    # 模拟每个电厂计算耗时
    time.sleep(5)
    return f"电厂 {powerplant_id} 准确率计算完成"

if __name__ == "__main__":
    powerplant_ids = range(1, 101)  # 100 个电厂
    num_processes = 10             # 10 个进程

    with Pool(num_processes) as pool:
        results = pool.map(calculate_accuracy, powerplant_ids)

    for result in results:
        print(result)