并行-两种线程池，以及为什么你需要它们-优快云博客

本文链接：https://blog.youkuaiyun.com/liluo0815481/article/details/146176355

其次，性能目标是让整个程序尽快完成。 及时处理中间结果不是优先事项。换句话说，目标是吞吐量，内部任务的延迟只有在影响吞吐量时才重要。这与Web应用程序不同，例如，Web应用程序中单个请求的尾部延迟通常非常重要。

第三，我们假设你的应用程序是机器上唯一运行的应用程序。 也就是说，计算机或虚拟机的所有资源都专用于你的应用程序。在云计算、虚拟机和容器的世界中，这是一个合理的假设。

让我们暂时假设你的程序完全受限于CPU：它从不等待外部资源。鉴于你的目标是让整个程序尽快完成，你希望充分利用所有CPU资源。因此，首先你要确保你的代码可以并行运行。然后，你必须确定要运行多少个线程。

如果你的计算机有8个CPU核心，你希望在任何时候至少有8个线程在运行，以便充分利用这8个核心。当你运行超过8个纯CPU密集型任务的线程时会发生什么？

简而言之，如果我们有N个CPU核心，并且只运行CPU密集型任务，我们希望在任何时候正好有N个线程在运行。 线程池是确保这一点的好方法。

接下来，让我们考虑另一个极端，假设我们的程序完全受限于网络，等待网络服务器的响应。例如，你可能正在查询数据库，或将指标发送到远程跟踪服务器。如果你处理的是网络密集型任务，CPU核心的数量是无关紧要的，因为大部分时间都在等待，而不是处理。但你仍然需要某种方式来处理多个并发操作。

一种实现方式是使用像asyncio这样的异步事件循环和相应的库。如果你能坚持使用异步库，你根本不需要线程。

但有时你不想使用异步，或者你正在处理阻塞的客户端库。例如，考虑requests.get("https://example.com")：该函数在从服务器获得响应之前不会返回。在此期间，调用此函数的线程无法执行其他操作。

如果没有异步事件循环，如果你想要并发，你需要多个线程。 你需要多少个线程？

作为初步估计，线程数至少应等于你希望同时进行的阻塞操作的数量。 你可以用5个线程向远程服务器发出5个并发网络请求，或用50个线程发出50个并发请求，或用500个线程发出500个并发请求。如果你有更多的线程闲置，那也没关系，至少在一定范围内。

当然，一旦你达到足够的并发性，你将会开始遇到资源限制：数据库连接数、内存、操作系统对文件描述符的限制，或远程服务器的客户限制。因此，设置并发连接数的上限是有用的，线程池是实现这一点的好方法。但池的大小可以比典型的并发水平大得多，而不会产生不良影响。

读写磁盘是另一种任务。通常它很快，但有时如果你饱和了磁盘带宽，它可能会变慢，因此有时使用线程可能会有帮助。

以下是两种任务及其对应的线程池大小和目标的总结：

任务类型	线程池目标	线程池大小
CPU密集型	充分利用所有核心	CPU核心数
网络密集型	防止达到资源限制	高于所需并发性，但足够低以避免其他资源限制

许多数据处理程序会包含这两种任务的混合：CPU和I/O。如果你对所有I/O使用异步事件循环，你的线程池可以仅用于CPU任务。

但如果你同时进行CPU密集型和阻塞网络操作，使用单个线程池会使你的程序运行得更慢：

如果你根据CPU核心数设置线程池大小，其中一些线程最终会阻塞在网络操作上。结果，你将无法充分利用CPU。此外，你的网络任务的并发性也会受到限制。这意味着你的代码会因为两个不同的原因而运行得更慢！
如果你根据I/O操作的并发性设置线程池大小，你最终会遇到试图运行比核心数更多的CPU密集型任务的情况。有时甚至远远超过你拥有的核心数。如上所述，这可能会导致计算速度变慢，并且可能会显著增加某些应用程序的内存使用量。

与其尝试使用一个无论如何设置都不正确的线程池，不如建议你（至少）使用两个线程池：