不要让你的应用程序崩溃：通过批量从数据库中加载数据以提高性能

最新推荐文章于 2025-12-06 09:39:04 发布

原创最新推荐文章于 2025-12-06 09:39:04 发布 · 910 阅读

20 ·

CC 4.0 BY-SA版权

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

文章标签：

#数据库 #oracle #服务器

榛樿鍒嗙被专栏收录该内容

831 篇文章

订阅专栏

原文：towardsdatascience.com/dont-crash-your-app-load-records-from-the-databse-in-batches-for-better-performance-ab09f3598d96

本文旨在优化您的 Python 应用程序与数据库之间的通信，以确保您的应用程序运行顺畅，数据库服务器不会过载。本文讨论了一个常见的低效习惯：一次性从查询中加载所有数据。

面对返回大量记录的查询时，通常不切实际，甚至不可能加载所有返回的记录。而不是在内存中加载所有结果并逐行处理，本文将介绍如何加载多个小块。而不是加载 100 万条记录并处理，我们将加载 400 批，每批 2500 条记录！这样，您的应用程序不需要在内存中加载所有结果，这具有明显的优势：

增强内存使用
更好的感知响应时间
减少数据库压力

我们还将深入了解技术细节，展示这个技术是如何在幕后工作的。让我们开始编码！

为什么使用 fetchmany

SQLAlchemy（或其他库中的类似方法）的fetchmany方法允许您分批检索相同的结果。在许多情况下，这种方法可能比一次性检索所有行（fetchall）或逐行检索（fetchone）更好。在某些情况下，检索多个小批量可能比检索所有记录更合适，原因如下：

1. 内存效率 在许多情况下，通过数据集进行批处理要内存效率更高，因为它可以防止您需要将所有数据加载到内存中。当您的数据集太大而无法适应内存时，这一点至关重要。

2. 感知响应时间 批处理可以带来更好的感知响应时间，因为我们可以在等待一小段时间后开始处理第一批数据，而不是等待整个结果集被检索。

这可以在需要响应性以保持流畅用户体验的用户界面应用程序中带来更好的感知响应时间。例如，考虑先加载前 25 篇文章，然后在页面滚动到底部时加载下一批数据。

SQL 中的 UNION 和 JOIN 有什么区别？

3. 减少数据库负载 以批量的方式检索数据有助于在时间上分散数据库的负载。这种分阶段的方法减少了数据库的负载。此外，它还有助于保持数据库服务器更好的整体性能。检索大量数据会对服务器造成重大负载，可能会影响使用相同数据库的其他应用程序的性能。

4. 更高效地使用数据库连接在处理大量结果集时保持数据库连接打开可能效率低下，并可能限制应用程序的可扩展性。通过分批获取和处理数据，您可以减少每个连接需要保持打开的时间，从而更有效地使用可用的数据库连接。这种方法允许数据库更有效地管理并发连接。

SQL – 将数据删除到另一个表

类比

让我们用一个类比来思考：想象一辆装满砖块的卡车到达建筑工地。我们有几个砖匠需要砖块来建造墙壁。与其试图从卡车将一整托盘的砖块运送到建筑工地，不如几次往返用装满砖块的手推车。这样做有几个原因是有用的：

自己搬运整个托盘将花费非常长的时间，因为。此外，砖匠们没有足够的空间来储存所有的砖块。
你在交付第一车砖块后，砖匠们就可以开始工作了。与此同时，你可以往返于第二批次。
卡车上的工作要少得多；你只需在装满手推车的时候短暂地阻塞入口。这样其他工人就可以为其他砖匠团队取砖。

Python args, kwargs, 和传递参数到函数的所有其他方式

实际示例

为了演示fetchmany的工作原理，解决一个非常简单的问题。让我们想象我们是一家网店，我们想要给所有客户发送个性化的电子邮件。

为了这个目的，我们有一个包含200 万客户（我们的商店非常成功）的表格。这个表格叫做clients，看起来是这样的：

| id | name  | email                    |
| -- | ----- | -------------------------|
| 1  | oscar | [[email protected]](/cdn-cgi/l/email-protection)   |
| 2  | bert  | [[email protected]](/cdn-cgi/l/email-protection)    |
| 3  | ernie | [[email protected]](/cdn-cgi/l/email-protection)  |

Python: init 不是构造函数：Python 对象创建的深入探讨

直接方法

最直接的方法就是查询所有记录并将它们全部发送到发送个性化客户电子邮件的函数：

stmt_select = "SELECT * FROM clients"

with session_maker() as con:
    all_records = con.execute(stmt_select).fetchall()

 # Process the found records
    found_clients = [r.Client for r in all_records]   
    send_email_to_clients(list_of_clients=found_clients)

这种方法的优点是相当简单。缺点也很明显：我们必须将 200 万客户加载到内存中，并传递给send_email_to_clients函数。

使用 fetchmany

让我们善待我们的应用程序和数据库，并检索数据块。我们可以使用一个名为fetchmany的 sqlalchemy 方法来完成这项工作。这看起来是这样的：

stmt_select = "SELECT * FROM clients"
with session_maker() as con:
    result = con.execute(stmt_select)
    while found_rows := result.fetchmany(size=1000):
        # Process the found records
        found_clients = [r.Client for r in found_rows]
        send_email_to_clients(list_of_clients=found_clients)

这是一个相当简单的更改；我们只需将result.fecthall()替换为result.fatchmany()。此方法返回行序列，直到没有更多行，此时它返回一个空序列。

接下来，我们使用罕见的 walrus 操作符将行存储在一个名为 found_rows 的变量中，直到没有更多行。这是一个由 size 参数指定的 1000 条记录的批次。我们可以像上一部分一样使用这个批次，并将批次发送到 send_email_to_clients 函数。

使用 Docker 和 Compose 完整指南

内部工作原理：fetchmany 的工作方式

让我们再次查看查询，看看它由两部分组成：执行查询和获取结果。

result = con.execute(stmt_select)                          # <-- execute
    while found_rows := result.fetchmany(size=1000):       # <-- fetch
        print(f"Found a batch with {len(found_rows)} rows")