SQLAlchemy 技术研究性教程（三）

最新推荐文章于 2025-12-02 19:01:55 发布

原创最新推荐文章于 2025-12-02 19:01:55 发布 · 489 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据库开发

原创文章同时被 3 个专栏收录

540 篇文章

订阅专栏

渗透测试

448 篇文章

订阅专栏

数据引擎

336 篇文章

订阅专栏

为面向对象编程思维而生的数据库优雅访问：SQLAlchemy

本文章仅提供学习，切勿将其用于不法手段！

——异步操作、复杂查询与工程化实践

前言：从“能用”到“好用”，我们还需要什么？

经过前两篇教程，你已经能用 SQLAlchemy 完成大部分数据库操作：从基础的 CRUD 到表结构迁移，从关系映射到性能调优，甚至搭了个迷你博客系统。但在实际工程中，还有三个“硬核场景”绕不开：

高并发需求：Web 应用动辄每秒几百上千请求，同步数据库操作会阻塞线程，导致响应变慢；
复杂数据分析：需要统计“近7天每日新增用户”“文章阅读量TOP10”这类跨表、带聚合函数的查询；
团队协作与规范：多人开发时，如何让模型定义、迁移脚本、查询逻辑更统一，减少“踩坑”？

这篇终章就聚焦这三个场景，用大白话+实战案例，带你解锁 SQLAlchemy 的“工程级”玩法。

第九章：异步 SQLAlchemy——高并发场景的“救命稻草”

9.1 为什么需要异步？同步操作的“致命伤”

假设你用 Flask 写一个接口 /users，功能是查所有用户并返回。用同步 SQLAlchemy 时，代码大概是这样：

from flask import Flask  
app = Flask(__name__)  

@app.route("/users")  
def get_users():  
    users = session.query(User).all()  # 同步查询，会阻塞线程  
    return {"users": [u.name for u in users]}

如果同时有 100 个请求过来，Flask 的默认服务器（Werkzeug）是单线程的，第 2 个请求得等第 1 个查询完成才能处理，直接导致“请求排队”，响应时间从 50ms 变成 5s！

异步的核心价值：当一个请求在“等数据库返回结果”时，线程可以去处理其他请求（“不傻等”），大幅提升并发能力。

9.2 异步 SQLAlchemy 的两大组件

SQLAlchemy 从 1.4 版本开始支持异步，主要依赖两个模块：

asyncio：Python 内置的异步编程框架（处理“事件循环”）；
asyncpg/aiomysql：异步数据库驱动（替代同步的 psycopg2/pymysql）。

9.3 异步环境搭建与基础用法

9.3.1 安装异步依赖

以 PostgreSQL 为例（MySQL 同理，换驱动即可）：

pip install sqlalchemy[asyncio]  # 安装异步核心  
pip install asyncpg  # PostgreSQL 异步驱动（MySQL 用 aiomysql）

9.3.2 定义异步 ORM 模型

模型和同步的区别不大，但需要用 AsyncSession 代替 Session，create_async_engine 代替 create_engine：

from sqlalchemy.ext.asyncio import create_async_engine, AsyncSession, async_sessionmaker  
from sqlalchemy.orm import DeclarativeBase, Mapped, mapped_column  
from sqlalchemy import String, Integer  

# 异步基类（SQLAlchemy 2.0+ 推荐用 Mapped/mapped_column 语法）  
class Base(DeclarativeBase):  
    pass  

# 异步模型（和同步几乎一样）  
class AsyncUser(Base):  
    __tablename__ = "async_user"  
    id: Mapped[int] = mapped_column(Integer, primary_key=True, autoincrement=True)  
    name: Mapped[str] = mapped_column(String(50), nullable=False)  

# 创建异步引擎（注意 URL 前缀是 postgresql+asyncpg://，不是 postgresql://）  
async_engine = create_async_engine(  
    "postgresql+asyncpg://user:password@localhost/dbname",  
    echo=True  # 打印异步 SQL（调试用）  
)  

# 创建异步 Session 工厂  
AsyncSessionLocal = async_sessionmaker(  
    bind=async_engine,  
    class_=AsyncSession,  
    expire_on_commit=False  # 避免提交后对象失效  
)

9.3.3 异步 CRUD 实战

异步操作必须用 async/await 语法，并且通过 async with 管理 Session（类似同步的 with）：

import asyncio  

# 异步新增用户  
async def async_create_user(name: str):  
    async with AsyncSessionLocal() as session:  # 自动管理 Session 生命周期  
        user = AsyncUser(name=name)  
        session.add(user)  
        await session.commit()  # 异步提交（必须加 await）  
        await session.refresh(user)  # 刷新对象，获取数据库生成的 id  
        return user  

# 异步查询用户  
async def async_get_users():  
    async with AsyncSessionLocal() as session:  
        result = await session.execute(select(AsyncUser))  # 异步执行查询（select 从 sqlalchemy 导入）  
        users = result.scalars().all()  # 提取所有 User 对象  
        return users  

# 运行异步函数（需要事件循环）  
async def main():  
    # 先建表（异步建表）  
    async with async_engine.begin() as conn:  
        await conn.run_sync(Base.metadata.create_all)  

    # 测试新增和查询  
    user = await async_create_user("异步小明")  
    print(f"新增用户：{user.name}")  

    users = await async_get_users()  
    print(f"所有用户：{[u.name for u in users]}")  

# 启动事件循环  
asyncio.run(main())

9.4 异步框架集成：FastAPI 实战

异步 SQLAlchemy 最适合搭配异步 Web 框架（如 FastAPI），两者都是“非阻塞”的，能把性能拉满。

示例：FastAPI + 异步 SQLAlchemy 接口

from fastapi import FastAPI  
from pydantic import BaseModel  

app = FastAPI()  

# Pydantic 模型（用于请求/响应校验）  
class UserCreate(BaseModel):  
    name: str  

class UserResponse(BaseModel):  
    id: int  
    name: str  

    class Config:  
        from_attributes = True  # 允许从 ORM 对象转换  

# 接口：新增用户（异步）  
@app.post("/async-users/", response_model=UserResponse)  
async def create_async_user(user: UserCreate):  
    db_user = AsyncUser(name=user.name)  
    async with AsyncSessionLocal() as session:  
        session.add(db_user)  
        await session.commit()  
        await session.refresh(db_user)  
    return db_user  

# 接口：查询所有用户（异步）  
@app.get("/async-users/", response_model=list[UserResponse])  
async def get_async_users():  
    async with AsyncSessionLocal() as session:  
        result = await session.execute(select(AsyncUser))  
        users = result.scalars().all()  
    return users

启动 FastAPI 后，用 uvicorn 运行（uvicorn main:app --reload --workers 4），你会发现即使每秒几百个请求，接口响应依然很快！

本章重点：

异步 SQLAlchemy 解决高并发下的“线程阻塞”问题，核心是 async/await + AsyncSession + 异步驱动（如 asyncpg）。
异步操作必须用 async with 管理 Session，await 执行数据库交互（如 commit()、execute()）。
搭配 FastAPI 等异步框架，能最大化发挥异步性能优势。

第十章：复杂查询——统计分析、多表联查与数据库函数

10.1 常见复杂查询场景

实际业务中，除了简单的“查用户列表”，还经常需要：

聚合统计：计算“平均用户年龄”“每日新增用户数”；
多表联查：查“用户及其最新发布的3篇文章”；
数据库函数：用 COUNT()、SUM()、DATE() 等数据库内置函数做计算；
子查询：查“关注数超过100的用户发布的文章”。

10.2 聚合统计：用 `func` 调用数据库函数

SQLAlchemy 提供 func 模块，可以调用数据库的内置函数（如 COUNT、AVG、MAX）。

示例1：统计用户总数和平均年龄

from sqlalchemy import func  
from sqlalchemy.future import select  

# 同步版本  
def get_user_stats():  
    session = Session()  
    # 用 func.count 和 func.avg 做聚合  
    total_users, avg_age = session.query(  
        func.count(User.id),  
        func.avg(User.age)  
    ).one()  # one() 返回单行结果（适合聚合查询）  
    session.close()  
    return {"total": total_users, "avg_age": round(avg_age or 0, 2)}  

# 异步版本（FastAPI 接口）  
@app.get("/stats/users")  
async def async_get_user_stats():  
    async with AsyncSessionLocal() as session:  
        result = await session.execute(  
            select(func.count(AsyncUser.id), func.avg(AsyncUser.age))  
        )  
        total, avg_age = result.one()  
    return {"total": total, "avg_age": round(avg_age or 0, 2)}

示例2：按日期分组统计新增用户（结合 `func.DATE`）

假设 User 表有 create_time 字段（DateTime 类型），要统计“近7天每天新增用户数”：

from datetime import datetime, timedelta  
from sqlalchemy import func, extract  

def get_daily_new_users(days=7):  
    session = Session()  
    # 计算起始时间（7天前）  
    start_date = datetime.now() - timedelta(days=days)  

    # 按日期分组（用 func.DATE 提取日期部分）  
    daily_counts = session.query(  
        func.DATE(User.create_time).label("date"),  # 提取日期，起别名 date  
        func.count(User.id).label("count")         # 统计每日新增数，起别名 count  
    ).filter(  
        User.create_time >= start_date  
    ).group_by(  
        func.DATE(User.create_time)  # 按日期分组  
    ).order_by("date").all()  # 按日期排序  

    session.close()  
    return [{"date": str(row.date), "count": row.count} for row in daily_counts]

10.3 多表联查：用 `join` 实现“连表查询”

比如查“用户及其最新发布的3篇文章”，需要关联 User 和 Article 表，并按时间倒序取前3。

示例：用户+最新3篇文章（用 `join` + 窗口函数）

from sqlalchemy import over, desc  
from sqlalchemy.orm import aliased  

def get_users_with_latest_articles():  
    session = Session()  
    # 子查询：给用户的文章按时间倒序编号（最新的是1）  
    subq = session.query(  
        Article.id,  
        Article.title,  
        Article.user_id,  
        over(  
            func.row_number(),  # 窗口函数：给每行编号  
            partition_by=Article.user_id,  # 按用户分组  
            order_by=desc(Article.create_time)  # 组内按时间倒序  
        ).label("rn")  # 编号列别名 rn  
    ).subquery()  # 转为子查询  

    # 主查询：关联用户和子查询，取 rn <=3 的文章  
    result = session.query(User, subq.c.title, subq.c.rn).join(  
        subq,  
        User.id == subq.c.user_id  
    ).filter(  
        subq.c.rn <= 3  # 只取最新3篇  
    ).order_by(User.id, subq.c.rn).all()  

    session.close()  
    # 整理结果（按用户分组）  
    user_articles = {}  
    for user, title, rn in result:  
        if user.id not in user_articles:  
            user_articles[user.id] = {"user": user, "articles": []}  
        user_articles[user.id]["articles"].append({"title": title, "rank": rn})  
    return list(user_articles.values())

10.4 子查询：嵌套查询的“优雅写法”

比如查“关注数超过100的用户发布的文章”，需要先查“关注数>100的用户ID”，再用这些ID过滤文章。

示例：子查询过滤

def get_articles_from_popular_users(min_followers=100):  
    session = Session()  
    # 子查询：找出关注数>100的用户ID  
    popular_user_ids = session.query(UserFollower.user_id).filter(  
        UserFollower.count > min_followers  
    ).subquery()  

    # 主查询：查这些用户发布的文章  
    articles = session.query(Article).filter(  
        Article.user_id.in_(popular_user_ids)  # in_ 接收子查询  
    ).all()  

    session.close()  
    return articles

本章重点：

聚合统计用 func 模块调用数据库函数（如 COUNT、AVG、DATE）；
多表联查用 join，复杂分组用窗口函数（over）；
子查询用 subquery() 生成，主查询用 in_、exists 等关联。

第十一章：工程化实践——团队协作与规范

11.1 模型定义规范：让代码“可读、可维护”

多人协作时，模型定义混乱会导致“这个字段是干嘛的？”“外键关联对吗？”等问题。推荐以下规范：

（1）统一字段命名与类型

主键统一用 id: Mapped[int] = mapped_column(Integer, primary_key=True, autoincrement=True)；
字符串字段明确长度（如 name: Mapped[str] = mapped_column(String(50))）；
时间字段用 DateTime，并注明时区（timezone=True）；
布尔字段用 Boolean，避免用 Integer 代替（0/1 易混淆）。

（2）注释与文档字符串

每个模型和字段添加注释，说明用途和约束：

class User(Base):  
    """用户表：存储系统注册用户的基本信息"""  
    __tablename__ = "user"  

    id: Mapped[int] = mapped_column(Integer, primary_key=True, autoincrement=True)  
    username: Mapped[str] = mapped_column(  
        String(50), unique=True, nullable=False, comment="用户名（唯一，不可重复）"  
    )  
    email: Mapped[str | None] = mapped_column(  
        String(100), unique=True, comment="邮箱（可选，用于登录）"  
    )  
    is_active: Mapped[bool] = mapped_column(  
        Boolean, default=True, comment="是否激活（默认激活，禁用后无法登录）"  
    )

11.2 迁移脚本管理：避免“脚本冲突”

团队多人开发时，可能出现“同时修改模型，生成两个迁移脚本”的情况，导致 Alembic 无法合并。解决方法：

（1）迁移脚本“小而专”

每个迁移脚本只做一件事（比如“加 email 字段”“改 username 长度”），避免一个脚本包含多个变更。

（2）提交代码前“同步迁移”

开发者在本地修改模型后，必须：

拉取远程最新代码（避免冲突）；
生成迁移脚本并测试（alembic upgrade head 后在本地验证）；
提交代码时，同时提交模型文件和迁移脚本（两者必须对应）。

（3）用 Git 钩子强制检查

通过 Git pre-commit 钩子，在提交前检查是否有未提交的迁移脚本，避免遗漏：

# .git/hooks/pre-commit（示例）  
#!/bin/sh  
# 检查是否有未提交的迁移脚本（alembic/versions 目录下有 .py 文件但未 git add）  
if git diff --cached --name-only | grep -q "alembic/versions"; then  
    echo "检测到迁移脚本变更，请确保已生成并提交！"  
else  
    # 检查模型文件变更但未生成迁移脚本（简单判断，实际需更复杂逻辑）  
    if git diff --cached --name-only | grep -q "models.py"; then  
        echo "警告：模型文件已修改，但未检测到迁移脚本变更！"  
        exit 1  
    fi  
fi

11.3 查询逻辑封装：避免“重复代码”

将常用的查询逻辑封装成“Repository 层”（仓库模式），业务代码只调用仓库的方法，不直接写 SQL。

示例：UserRepository 封装用户查询

class UserRepository:  
    def __init__(self, session: Session | AsyncSession):  
        self.session = session  

    def get_by_username(self, username: str) -> User | None:  
        return self.session.query(User).filter(User.username == username).first()  

    def get_active_users(self) -> list[User]:  
        return self.session.query(User).filter(User.is_active == True).all()  

    # 异步版本（略）  
    async def async_get_by_username(self, username: str) -> AsyncUser | None:  
        result = await self.session.execute(select(AsyncUser).where(AsyncUser.username == username))  
        return result.scalar_one_or_none()  

# 业务代码中使用  
def login(username: str, password: str):  
    repo = UserRepository(Session())  
    user = repo.get_by_username(username)  
    if user and check_password(password, user.password):  # 假设的密码校验函数  
        return "登录成功"  
    return "用户名或密码错误"

本章重点：