数据库导论#3

最新推荐文章于 2025-12-14 11:16:01 发布

原创最新推荐文章于 2025-12-14 11:16:01 发布 · 871 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#数据库

数据库专栏收录该内容

4 篇文章

订阅专栏

CMU 15-445 数据库系统导论（Fall 2024）课程笔记

一、课程任务与后续安排

1.1 近期截止任务

作业一 & 项目零

：本周日午夜截止
- 项目零：已有约 100% 学生完成，未启动者需立即开始（核心是搭建开发环境）；
- 作业一：需编写 SQL 查询（涉及 duckdb 和 SQLite），耗时较短但需按时提交。
项目一（计入成绩）

：下周一 / 周二发布
- 核心任务：实现缓冲池管理器（后续课程会详细讲解，但因开发环境已通过项目零搭建，可立即编码）。

1.2 课程节奏与闪电演讲

每周三设置 “闪电演讲”：本次邀请前 Postgres 开发者、Neon 联合创始人分享 Neon 数据库（10 分钟），部分内容初期可能难以理解，随课程推进将逐步清晰。
课程时间协调：本次课程计划 3:10 停止主体内容，切换至 Neon 演讲（Zoom 平台）。

二、课程内容过渡与数据库系统层次结构

2.1 从逻辑层到物理层的过渡

前序内容：已覆盖关系模型、关系代数、SQL（逻辑层，聚焦应用 “看到” 的数据形式）；
后续核心：不再回顾逻辑层，转而深入数据库系统内部实现—— 从最底层的磁盘 / 存储层逐步向上，直至查询执行引擎，按 “系统实现的反向顺序” 学习。

2.2 数据库系统的层次化架构

核心思想：通过 “抽象” 隐藏各层细节，暴露 API 实现层间交互（类似 OS 与应用的交互模式）；
层次划分（从下到上）：
1. 磁盘层 / 存储层：管理非易失性存储（磁盘、SSD 等），处理文件与页面；
2. 缓冲池管理器：协调数据在磁盘与内存间的移动，管理内存中的页面；
3. 访问方法层：提供数据访问接口（如索引、表扫描）；
4. 查询执行层：解析并执行 SQL 查询；
5. 应用层：发送 SQL 查询，触发底层各层协同工作。

三、基于磁盘的数据库架构核心思想

3.1 架构假设与数据移动逻辑

核心假设：数据主要存储在非易失性磁盘，操作数据需先将其从磁盘加载到内存（DRAM），再由 CPU 处理（经典冯・诺伊曼架构）；
关键问题：如何确保内存中修改的数据安全写入磁盘（确保持久性）—— 后续多节课将围绕此展开。

3.2 存储硬件层次结构与特性

硬件层级	速度（参考）	容量	易失性	寻址方式	核心特点
CPU 寄存器	1ns	极小（几十个）	易失	按字节	最快，CPU 直接访问
CPU 缓存	1-10ns	较小（MB 级）	易失	按字节（缓存行）	缓解 CPU 与内存速度差
内存（DRAM）	100ns	中等（GB 级）	易失	按字节	数据库缓冲池所在层
SSD	10-100μs	较大（TB 级）	非易失	块存储（4KB+）	无机械部件，随机访问比硬盘快
旋转硬盘（HDD）	10-20ms	大（TB 级）	非易失	块存储	有机械臂，顺序访问远快于随机
网络存储（S3）	100ms+	极大（近乎无限）	非易失	块存储	分布式，用于备份或海量存储

关键分界线：内存（DRAM）以上为易失性、按字节寻址；以下为非易失性、块存储—— 直接影响数据库算法与数据结构设计。

3.3 顺序访问 vs 随机访问

核心差异：非易失性存储中，顺序访问速度远快于随机访问（HDD 因机械臂移动差距达 100 倍 +，SSD 差距较小但仍存在）；
设计原则：数据库系统需最大化顺序 I/O，即使需在 CPU 层做更多工作（如预读取、批量处理），长期仍利于性能。

3.4 数据库系统设计目标

支持超内存大小的数据库（不依赖 OS 虚拟内存，自行管理数据移动）；
减少磁盘读写以避免系统 “大停顿”（如通过缓存、预读取优化）；
优先选择顺序访问，平衡 CPU 与 I/O 开销；
确保持久性（内存数据安全写入磁盘）与一致性。

四、数据库文件与缓冲池基本结构

4.1 磁盘上的数据库文件

本质：数据库文件是 OS 可识别的普通文件（无特殊格式，仅数据库系统知晓内部结构）；
不同系统文件布局差异：
- SQLite：单文件存储所有数据；
- PostgreSQL：多文件（按表 / 索引拆分，存于不同目录）；
- Oracle（企业级）：可自定义文件布局，甚至绕过 OS 文件系统直接操作磁盘（如 ASM）。
文件组成：
1. 目录（元数据）：记录文件内页面的位置、类型（表 / 索引）、空闲空间等；
2. 页面：文件被划分为固定大小的 “页面”（块），是数据库 I/O 的最小单位（页面内存储元组）。

4.2 内存中的缓冲池（Buffer Pool）

作用：数据库系统管理的内存区域，负责将磁盘页面 “缓存” 到内存，供执行引擎访问；
核心流程（以查询为例）：
1. 执行引擎需访问某页面（如学生表页面 2），先查询缓冲池；
2. 若页面不在缓冲池（“缓存未命中”），通过存储管理器从磁盘文件读取页面，放入缓冲池；
3. 执行引擎操作内存中的页面（读 / 写）；
4. 若页面被修改（“脏页”），缓冲池管理器需在合适时机将其写回磁盘，确保持久性。

五、存储管理器与页面核心属性

5.1 存储管理器（Storage Manager）

职责：管理磁盘文件，协调数据在磁盘与内存间的移动，包含以下功能：
1. 磁盘调度：决定 I/O 请求的顺序（如合并相邻请求，优先顺序请求）；
2. 页面管理：页面的创建、读取、写入、删除；
3. 空间管理：跟踪页面空闲空间，重用删除元组后的空间；
4. 元数据维护：维护目录（页面 ID 到物理位置的映射）。
不负责的工作：数据冗余（如多副本，由底层存储如 S3 或上层复制机制处理）。

5.2 页面的核心属性

5.2.1 页面 ID（Page ID）

定义：唯一标识数据库内的页面（也称 “块 ID”），用于映射页面的物理位置；
映射方式：
- 单文件系统（SQLite）：页面 ID → 文件内偏移（偏移 = 页面 ID × 页面大小）；
- 多文件系统（PostgreSQL）：页面 ID → 表 / 索引标识 + 文件偏移（需先通过目录找到对应文件）。

5.2.2 页面元数据

内容：页面 ID、修改时间戳、校验和（检测数据损坏）、数据类型（表 / 索引）、压缩编码、数据最小值 / 最大值（优化范围查询）；
自我封闭性：部分系统（如 Oracle）在页面内存储完整元数据，确保 “仅读取单页即可理解其内容”—— 利于灾难恢复（如磁盘部分损坏时，可通过单页元数据恢复数据）。

5.2.3 页面大小选择

不同层级页面概念：
- 硬件页面：4KB（原子 I/O 单位，不可拆分）；
- OS 页面：默认 4KB，支持 “巨大页面”（2MB/1GB，减少 TLB 开销）；
- 数据库页面：基于硬件页面，大小因系统而异（见下表）。

数据库系统	默认页面大小	可配置性	适用场景
SQLite	4KB	可缩至 512B	轻量级应用，小数据量
PostgreSQL	8KB	固定（编译时配置）	通用场景
MySQL	16KB	支持调整	读写均衡场景
RocksDB/WiredTiger	4KB	支持调整	NoSQL 数据库，键值存储
DB2（企业级）	8KB/16KB/64KB	按表配置	大型企业应用，灵活适配 workload

选择原则：
- 大页面（64KB+）：适合顺序扫描、读密集、大元组（减少 I/O 次数）；
- 小页面（4KB）：适合随机写入、写密集、小元组（减少无效数据读写）。

六、数据库文件的页面管理方式

6.1 常见页面组织方式

堆文件（Heap File）：最常见，页面无序，元组可存于任意空闲位置；
- 核心 API：创建页面、按 ID 获取页面、写入 / 刷盘页面、删除页面、顺序扫描迭代器；
- 元数据管理：需维护 “空闲空间映射”（记录各页面空闲空间比例），避免插入时顺序扫描所有页面。
树文件（Tree File）：基于索引组织（如 B + 树），页面按键值排序，适合范围查询；
顺序文件（Sequential File）：历史方案，页面按元组值排序，需定期重组以维持顺序，现已极少使用；
哈希文件（Hash File）：按元组哈希值映射到页面，适合等值查询，不支持范围查询。

6.2 堆文件的空闲空间管理

空闲空间映射（Free Space Map, FSM）：记录各页面的空闲空间比例（如 PostgreSQL 的 pg_freespace 扩展可查看）；
潜在问题：FSM 不实时同步（如 PostgreSQL 插入数据后，FSM 可能延迟更新，导致查询显示 “页面 100% 满” 但实际有空闲）—— 需执行VACUUM命令（类似垃圾回收）更新 FSM。

七、PostgreSQL 实例演示（页面管理实践）

7.1 环境与表结构

表：student（含 3 条初始记录，元组包含id（int）、name（varchar(50)）、age（int））；
PostgreSQL 页面大小：8KB，支持通过pg_freespace扩展查看页面空闲空间。

7.2 关键操作与现象

7.2.1 初始状态查看

sql

-- 查看student表各页面空闲空间
SELECT ctid, (free_space / 8192.0) * 100 AS free_ratio
FROM pg_freespace('student');

结果：仅页面 0（块 0），空闲率 5%（95% 满）——3 条小元组占用少量空间，符合预期。

7.2.2 插入大量数据后

sql

-- 插入1000条假数据
INSERT INTO student (id, name, age)
SELECT generate_series(4, 1003), 'student_' || generate_series(4, 1003), 20;

-- 再次查看空闲空间
SELECT ctid, (free_space / 8192.0) * 100 AS free_ratio
FROM pg_freespace('student');

结果：页面数增至 7，部分页面显示 “0% 空闲”—— 因 FSM 未同步，实际最后一页可能仍有空闲；执行VACUUM student;后，FSM 更新，空闲率显示恢复正常。

7.2.3 删除数据与空间重用

sql

-- 删除500条数据
DELETE FROM student WHERE id > 503;

-- 查看空闲空间
SELECT ctid, (free_space / 8192.0) * 100 AS free_ratio
FROM pg_freespace('student');

结果：部分页面空闲率上升；再次插入数据时，PostgreSQL 会优先使用这些空闲空间（而非创建新页面）。

7.3 关键结论

PostgreSQL 页面管理：单表数据存储在独立文件（路径可通过pg_relation_filepath('student')查询），文件大小为页面大小的整数倍；
FSM 同步：需手动执行VACUUM或依赖自动清理进程，确保空闲空间映射准确；
空间重用：删除元组后，空间不会立即释放给 OS，而是由数据库系统内部重用（避免文件碎片）。

八、页面内部结构与元组组织

8.1 页面布局（以 PostgreSQL 为例）

结构（从顶部到底部）：
1. 页面头（24B）：页面 ID、检查点编号、修改时间、空闲空间指针；
2. 插槽数组（Slot Array）
  
  ：固定长度（每个插槽 4B），存储元组在页面内的偏移（如插槽 0 → 元组 1 的偏移，插槽 1 → 元组 2 的偏移）；
  - 增长方向：从顶部向底部增长；
3. 空闲空间：插槽数组与元组数据之间的区域，动态变化；
4. 元组数据
  
  ：存储实际元组（固定长度字段 + 可变长度字段），包含元组头（事务 ID、可见性信息）；
  - 增长方向：从底部向顶部增长；
5. 页面尾（4B）：页面校验和。
满页条件：插槽数组与元组数据在中间相遇，无空闲空间。

8.2 元组删除的处理方式

标记删除（Lazy Delete）：
- 操作：仅在插槽数组标记 “元组已删除”，不移动其他元组；
- 优点：快速，不阻塞其他访问；
- 缺点：产生 “空闲碎片”，需VACUUM清理后重用空间。
移动填充（Eager Delete）：
- 操作：删除元组后，移动后续元组填充空闲空间，更新插槽数组偏移；
- 优点：无碎片，空间利用率高；
- 缺点：耗时，可能阻塞并发访问（需加锁）。

九、行业案例：Neon 数据库架构（闪电演讲）

9.1 Neon 核心定位

无服务器（Serverless）云数据库服务，基于 PostgreSQL 构建，核心创新是计算与存储分离。

9.2 架构组成（从下到上）

存储层（Rust 编写，自定义系统）：
- 安全保管者（Safekeeper）：接收 PostgreSQL 的预写日志（WAL），基于 Paxos 共识算法确保日志不丢失；
- 页面服务器（Page Server）：通过 WAL 重构页面，响应计算层的页面请求，支持 “时间旅行查询”（恢复任意历史版本）和 “分支”（复制数据库环境用于测试）。
计算层（PostgreSQL）：
- 无状态：仅运行 PostgreSQL 实例，不存储持久化数据；
- 弹性扩缩容：基于负载自动启动 / 关闭实例，放置在 Kubernetes 的 VM 中。

9.3 核心优势

快速启动：无需传统检查点（通过 WAL 实时重构页面），PostgreSQL 实例秒级启动；
按需付费：计算资源仅在有请求时计费，存储按实际使用量计费；
高可用：Paxos 确保 WAL 不丢失，页面服务器支持多副本；
兼容性：完全兼容 PostgreSQL 工具生态（如 pgAdmin）和 MVCC 机制，无需修改应用。

9.4 挑战与解决方案

内存扩缩容：内存耗尽时需优雅降级（如终止长查询），缓存大小需动态适配负载；
存储扩展：需确保存储容量充足（避免查询失败），支持跨区域存储复制；
并发控制：PostgreSQL 原生 MVCC 机制不变，存储层通过 WAL 确保多计算节点数据一致性。

十、总结与后续课程预告

10.1 本次课程核心

数据库系统从逻辑层转向物理层，聚焦存储层设计（文件、页面、数据移动）；
硬件特性（易失性 / 非易失性、顺序 / 随机访问）决定数据库算法与数据结构；
页面是数据库 I/O 的最小单位，其大小、元数据、管理方式直接影响性能；
行业案例 Neon 展示了 “计算与存储分离” 的云原生数据库趋势。

10.2 后续课程安排

下两节课：深入页面内部结构（元组格式、压缩、索引页面）；
第 6 课：缓冲池管理器实现（页面调入 / 调出、脏页处理、替换策略）；
期中考试后：事务与持久化（WAL、检查点、崩溃恢复）、查询执行引擎。

实验

CMU 15-445 课程中最核心的实验之一是 缓冲池管理器（Buffer Pool Manager） 的实现，它是数据库存储层的核心组件。以下将基于课程知识点，用 Java 完成该实验的核心逻辑，包含页面封装、缓存管理、LRU 替换策略、脏页处理等关键功能。

一、实验前置知识回顾

缓冲池管理器的核心职责：

维护内存中的页面缓存（有限容量）；
处理页面的 “命中 / 未命中”：命中则更新页面访问状态，未命中则从磁盘加载并加入缓存；
缓存满时，通过 LRU（最近最少使用） 策略替换页面（替换前需将 “脏页” 写回磁盘）；
管理页面的 “脏标记”（修改后需标记为脏，确保数据持久化）和 “引用计数”（避免正在使用的页面被替换）。

二、核心组件设计

1. 基础常量定义

java

/**
 * 页面大小（4KB，与课程笔记中硬件页面大小一致）
 */
public static final int PAGE_SIZE = 4096;

/**
 * 缓冲池容量（最多缓存 10 个页面，可按需调整）
 */
public static final int BUFFER_POOL_CAPACITY = 10;

2. 页面封装类（Page）

封装磁盘页面的核心属性：页面 ID、数据、脏标记、引用计数。

java

public class Page {
    // 页面唯一标识（格式：表ID-块索引，如 "table1-5"）
    private final String pageId;
    // 页面数据（字节数组，大小固定为 PAGE_SIZE）
    private final byte[] data;
    // 脏标记：true 表示页面被修改，需写回磁盘
    private boolean isDirty;
    // 引用计数：记录当前有多少线程在使用该页面（避免被误替换）
    private int refCount;

    /**
     * 构造方法：从磁盘加载页面或创建新页面
     * @param pageId 页面ID
     * @param data 页面数据（新页面为全0数组）
     */
    public Page(String pageId, byte[] data) {
        this.pageId = pageId;
        // 确保数据大小为 PAGE_SIZE
        this.data = new byte[PAGE_SIZE];
        if (data != null) {
            System.arraycopy(data, 0, this.data, 0, Math.min(data.length, PAGE_SIZE));
        }
        this.isDirty = false;
        this.refCount = 1; // 初始化时引用计数为1（创建者持有引用）
    }

    // ------------------- Getter & Setter -------------------
    public String getPageId() {
        return pageId;
    }

    public byte[] getData() {
        return data; // 返回数据副本，避免外部直接修改内部数组
    }

    public boolean isDirty() {
        return isDirty;
    }

    public void setDirty(boolean dirty) {
        isDirty = dirty;
    }

    // ------------------- 引用计数管理 -------------------
    /**
     * 增加引用计数（线程使用页面时调用）
     */
    public synchronized void incRefCount() {
        refCount++;
    }

    /**
     * 减少引用计数（线程释放页面时调用）
     */
    public synchronized void decRefCount() {
        if (refCount > 0) {
            refCount--;
        }
    }

    /**
     * 检查页面是否可被替换（引用计数为0）
     */
    public synchronized boolean isReplaceable() {
        return refCount == 0;
    }

    // ------------------- 数据操作 -------------------
    /**
     * 向页面写入数据（从指定偏移量开始）
     * @param offset 数据偏移量（0 <= offset < PAGE_SIZE）
     * @param newData 待写入数据
     */
    public void writeData(int offset, byte[] newData) {
        if (offset < 0 || offset >= PAGE_SIZE || newData == null) {
            throw new IllegalArgumentException("Invalid write parameters");
        }
        // 写入数据并标记为脏页
        System.arraycopy(newData, 0, this.data, offset, Math.min(newData.length, PAGE_SIZE - offset));
        this.isDirty = true;
    }
}

3. 磁盘管理器接口（DiskManager）

模拟磁盘的 I/O 操作（真实场景中会操作文件，此处用内存哈希表模拟，简化实验）。

java

import java.util.HashMap;
import java.util.Map;

/**
 * 磁盘管理器：模拟磁盘的页面读取、写入、创建操作
 */
public class DiskManager {
    // 内存哈希表：模拟磁盘存储（key=pageId，value=页面数据）
    private final Map<String, byte[]> diskStorage = new HashMap<>();

    /**
     * 从磁盘读取页面
     * @param pageId 页面ID
     * @return 页面数据（若不存在则返回 null）
     */
    public byte[] readPage(String pageId) {
        System.out.printf("[DiskManager] 读取磁盘页面：%s%n", pageId);
        return diskStorage.get(pageId);
    }

    /**
     * 将页面写回磁盘
     * @param pageId 页面ID
     * @param data 页面数据
     */
    public void writePage(String pageId, byte[] data) {
        System.out.printf("[DiskManager] 写入磁盘页面：%s%n", pageId);
        byte[] diskData = new byte[PAGE_SIZE];
        System.arraycopy(data, 0, diskData, 0, Math.min(data.length, PAGE_SIZE));
        diskStorage.put(pageId, diskData);
    }

    /**
     * 创建新的磁盘页面（初始化全0数据）
     * @param pageId 页面ID
     */
    public void createNewPage(String pageId) {
        System.out.printf("[DiskManager] 创建新磁盘页面：%s%n", pageId);
        diskStorage.put(pageId, new byte[PAGE_SIZE]);
    }
}

4. 缓冲池管理器核心类（BufferPoolManager）

实现缓存管理、LRU 替换、脏页刷盘等核心逻辑，线程安全（通过 synchronized 保证并发安全）。

4.1 核心数据结构

pageCache：哈希表（HashMap），用于快速查找 “页面 ID → 页面实例”；
lruList：双向链表（LinkedList），维护页面的访问顺序（头部为 “最近最少使用”，尾部为 “最近使用”）；
diskManager：磁盘管理器实例，负责与 “磁盘” 交互。

4.2 完整代码

java

import java.util.HashMap;
import java.util.LinkedList;
import java.util.Map;

/**
 * 缓冲池管理器：实现页面缓存、LRU替换、脏页处理
 */
public class BufferPoolManager {
    // 页面缓存：pageId → Page 实例
    private final Map<String, Page> pageCache;
    // LRU链表：维护页面访问顺序（头部=LRU，尾部=MRU）
    private final LinkedList<String> lruList;
    // 磁盘管理器：与磁盘交互
    private final DiskManager diskManager;
    // 缓冲池容量
    private final int capacity;

    /**
     * 构造方法：初始化缓冲池和磁盘管理器
     * @param capacity 缓冲池容量
     * @param diskManager 磁盘管理器实例
     */
    public BufferPoolManager(int capacity, DiskManager diskManager) {
        this.capacity = capacity;
        this.diskManager = diskManager;
        this.pageCache = new HashMap<>(capacity);
        this.lruList = new LinkedList<>();
    }

    // ------------------- 核心方法：获取页面 -------------------
    /**
     * 获取页面：优先从缓存读取，未命中则从磁盘加载
     * @param pageId 页面ID
     * @return 页面实例（若磁盘中不存在则返回 null）
     */
    public synchronized Page getPage(String pageId) {
        // 1. 缓存命中：更新LRU顺序，增加引用计数
        if (pageCache.containsKey(pageId)) {
            Page page = pageCache.get(pageId);
            updateLRU(pageId); // 移到LRU链表尾部（标记为最近使用）
            page.incRefCount(); // 增加引用计数
            System.out.printf("[BufferPool] 缓存命中：%s，当前引用计数：%d%n", pageId, page.refCount);
            return page;
        }

        // 2. 缓存未命中：从磁盘读取页面
        byte[] diskData = diskManager.readPage(pageId);
        if (diskData == null) {
            System.out.printf("[BufferPool] 页面 %s 不存在于磁盘%n", pageId);
            return null;
        }

        // 3. 检查缓存是否已满：满则替换LRU页面
        if (pageCache.size() >= capacity) {
            if (!evictLRUPage()) { // 替换失败（无可用页面）
                System.out.println("[BufferPool] 缓存满且无可用页面替换，获取失败");
                return null;
            }
        }

        // 4. 将磁盘页面加入缓存，更新LRU
        Page newPage = new Page(pageId, diskData);
        pageCache.put(pageId, newPage);
        lruList.addLast(pageId); // 新页面加入LRU尾部（最近使用）
        System.out.printf("[BufferPool] 缓存未命中，加载磁盘页面 %s 到缓存%n", pageId);
        return newPage;
    }

    // ------------------- 核心方法：释放页面 -------------------
    /**
     * 释放页面：减少引用计数（引用计数为0时才允许被替换）
     * @param pageId 页面ID
     */
    public synchronized void releasePage(String pageId) {
        if (!pageCache.containsKey(pageId)) {
            System.out.printf("[BufferPool] 页面 %s 不在缓存中，无需释放%n", pageId);
            return;
        }

        Page page = pageCache.get(pageId);
        page.decRefCount();
        System.out.printf("[BufferPool] 释放页面 %s，当前引用计数：%d%n", pageId, page.refCount);
    }

    // ------------------- 核心方法：刷盘页面 -------------------
    /**
     * 将指定页面刷回磁盘（若为脏页）
     * @param pageId 页面ID
     * @return 刷盘成功与否
     */
    public synchronized boolean flushPage(String pageId) {
        if (!pageCache.containsKey(pageId)) {
            System.out.printf("[BufferPool] 页面 %s 不在缓存中，无需刷盘%n", pageId);
            return false;
        }

        Page page = pageCache.get(pageId);
        if (!page.isDirty()) {
            System.out.printf("[BufferPool] 页面 %s 非脏页，无需刷盘%n", pageId);
            return true;
        }

        // 写回磁盘并清除脏标记
        diskManager.writePage(pageId, page.getData());
        page.setDirty(false);
        System.out.printf("[BufferPool] 页面 %s 刷盘成功，脏标记已清除%n", pageId);
        return true;
    }

    /**
     * 将所有脏页刷回磁盘
     */
    public synchronized void flushAllPages() {
        System.out.println("[BufferPool] 开始刷回所有脏页");
        for (Page page : pageCache.values()) {
            if (page.isDirty()) {
                diskManager.writePage(page.getPageId(), page.getData());
                page.setDirty(false);
                System.out.printf("[BufferPool] 刷盘脏页：%s%n", page.getPageId());
            }
        }
    }

    // ------------------- 核心方法：创建新页面 -------------------
    /**
     * 创建新页面（先在磁盘创建，再加载到缓存）
     * @param pageId 新页面ID
     * @return 新页面实例
     */
    public synchronized Page newPage(String pageId) {
        // 1. 在磁盘创建新页面
        diskManager.createNewPage(pageId);

        // 2. 检查缓存是否已满：满则替换LRU页面
        if (pageCache.size() >= capacity) {
            if (!evictLRUPage()) {
                System.out.println("[BufferPool] 缓存满且无可用页面替换，创建失败");
                return null;
            }
        }

        // 3. 加载新页面到缓存
        Page newPage = new Page(pageId, new byte[PAGE_SIZE]);
        pageCache.put(pageId, newPage);
        lruList.addLast(pageId);
        System.out.printf("[BufferPool] 新页面 %s 创建并加入缓存%n", pageId);
        return newPage;
    }

    // ------------------- LRU 辅助方法 -------------------
    /**
     * 更新LRU顺序：将页面移到链表尾部（标记为最近使用）
     * @param pageId 页面ID
     */
    private void updateLRU(String pageId) {
        lruList.remove(pageId); // 从原位置移除
        lruList.addLast(pageId); // 加入尾部
    }

    /**
     * 替换LRU页面：从链表头部移除“最近最少使用”且可替换（引用计数为0）的页面
     * @return 替换成功与否
     */
    private boolean evictLRUPage() {
        // 遍历LRU链表头部，找到第一个可替换的页面
        for (String lruPageId : lruList) {
            Page lruPage = pageCache.get(lruPageId);
            if (lruPage.isReplaceable()) {
                // 1. 若为脏页，先刷回磁盘
                if (lruPage.isDirty()) {
                    diskManager.writePage(lruPageId, lruPage.getData());
                    System.out.printf("[BufferPool] 替换LRU页面 %s（脏页已刷盘）%n", lruPageId);
                } else {
                    System.out.printf("[BufferPool] 替换LRU页面 %s（非脏页）%n", lruPageId);
                }

                // 2. 从缓存和LRU链表中移除
                pageCache.remove(lruPageId);
                lruList.remove(lruPageId);
                return true;
            }
        }

        // 无可用页面替换（所有页面都在被使用）
        System.out.println("[BufferPool] 所有页面均被引用，无法替换");
        return false;
    }

    // ------------------- 调试方法 -------------------
    /**
     * 打印缓冲池状态（缓存页面、LRU顺序）
     */
    public synchronized void printStatus() {
        System.out.println("\n=== 缓冲池状态 ===");
        System.out.printf("缓存容量：%d / %d%n", pageCache.size(), capacity);
        System.out.printf("LRU顺序（头部=最少使用，尾部=最近使用）：%s%n", lruList);
        for (Map.Entry<String, Page> entry : pageCache.entrySet()) {
            Page page = entry.getValue();
            System.out.printf("页面 %s：脏标记=%b，引用计数=%d%n",
                    entry.getKey(), page.isDirty(), page.refCount);
        }
        System.out.println("=================\n");
    }
}

三、实验测试代码

通过测试验证缓冲池管理器的核心功能（缓存命中、LRU 替换、脏页刷盘、引用计数）。

java

public class BufferPoolTest {
    public static void main(String[] args) {
        // 1. 初始化磁盘管理器和缓冲池（容量=3）
        DiskManager diskManager = new DiskManager();
        BufferPoolManager bpm = new BufferPoolManager(3, diskManager);

        // 2. 测试1：创建新页面并加入缓存
        Page page1 = bpm.newPage("table1-0");
        Page page2 = bpm.newPage("table1-1");
        Page page3 = bpm.newPage("table1-2");
        bpm.printStatus(); // 缓存：3个页面，LRU顺序：[table1-0, table1-1, table1-2]

        // 3. 测试2：缓存满，获取新页面（触发LRU替换）
        Page page4 = bpm.getPage("table1-3"); // 磁盘先创建，再替换LRU页面（table1-0）
        bpm.printStatus(); // 缓存：table1-1, table1-2, table1-3，LRU顺序：[table1-1, table1-2, table1-3]

        // 4. 测试3：访问缓存中的页面（更新LRU顺序）
        bpm.getPage("table1-1"); // 访问后，table1-1移到LRU尾部
        bpm.printStatus(); // LRU顺序：[table1-2, table1-3, table1-1]

        // 5. 测试4：修改页面（标记为脏页）并刷盘
        page2.writeData(0, "Hello, BufferPool!".getBytes()); // page2是table1-1，修改后为脏页
        bpm.flushPage("table1-1"); // 刷盘脏页，清除脏标记
        bpm.printStatus(); // table1-1的脏标记变为false

        // 6. 测试5：引用计数（页面被使用时无法替换）
        Page page5 = bpm.getPage("table1-2"); // 引用计数+1（变为2）
        bpm.releasePage("table1-2"); // 引用计数-1（变为1，仍不可替换）
        // 尝试替换：此时LRU头部是table1-2，但引用计数=1，无法替换，会替换下一个table1-3
        bpm.getPage("table1-4"); 
        bpm.printStatus(); // 缓存：table1-2, table1-1, table1-4（table1-3被替换）

        // 7. 测试6：释放页面后允许替换
        bpm.releasePage("table1-2"); // 引用计数-1（变为0，可替换）
        bpm.getPage("table1-5"); // 替换LRU页面table1-2
        bpm.printStatus(); // 缓存：table1-1, table1-4, table1-5

        // 8. 测试7：刷回所有脏页
        bpm.getPage("table1-4").writeData(100, "Dirty Page!".getBytes());
        bpm.flushAllPages();
        bpm.printStatus(); // 所有脏页标记清除
    }
}

四、实验结果分析

运行测试代码后，控制台会输出关键日志，验证以下核心功能：

缓存命中 / 未命中：首次获取页面触发磁盘加载，再次获取直接从缓存读取；
LRU 替换：缓存满时，优先替换 “最近最少使用” 且引用计数为 0 的页面；
脏页处理：修改页面后标记为脏，刷盘时写回磁盘并清除脏标记；
引用计数：引用计数 > 0 的页面无法被替换，释放后（计数 = 0）才允许替换；
线程安全：所有核心方法加 synchronized，避免并发修改冲突。

五、实验扩展（可选）

若需进一步贴合课程要求，可扩展以下功能：

支持多表页面：在 pageId 中加入表 ID（如 table2-3），实现跨表页面管理；
高级替换策略：将 LRU 改为 CLOCK（时钟算法） 或 LRU-K，提升并发场景下的性能；
持久化磁盘：将 DiskManager 的内存哈希表替换为真实文件操作（如 RandomAccessFile）；
统计功能：添加缓存命中率、I/O 次数统计，用于性能分析。

该实现完全基于课程笔记中的核心知识点，可直接作为 CMU 15-445 项目一的 Java 版本基础代码。

问答

为贴合 CMU 15-445 本节课（数据库存储层与缓冲池）的理论体系，以下设计 10 道难度递增的问答题，覆盖基础概念、逻辑分析、设计权衡及深度优化，答案严格对应课程笔记核心知识点：

1. 基础题：数据库系统从下到上划分的 5 层架构是什么？其中缓冲池管理器属于哪一层？

答案：
架构从下到上为：①磁盘层 / 存储层（管理非易失性存储）→②缓冲池管理器（协调磁盘与内存数据移动）→③访问方法层（提供索引、表扫描等接口）→④查询执行层（解析执行 SQL）→⑤应用层（发送 SQL 请求）；
缓冲池管理器属于第 2 层（缓冲池管理器层） 。

2. 基础题：为什么数据库系统将 “页面” 作为 I/O 操作的最小单位，而非按字节或 OS 页面？

答案：
核心原因源于硬件特性与性能优化：
① 非易失性存储（SSD/HDD）本质是 “块存储”（硬件 I/O 最小单位为 4KB+），按页面（与硬件块大小对齐）操作可避免 “部分块读写” 的无效开销；
② 对比 OS 页面：数据库页面可按需配置（如 PostgreSQL 8KB、MySQL 16KB），能根据 workload （如顺序扫描用大页面、随机写入用小页面）优化 I/O 效率，而 OS 页面默认 4KB，灵活性不足；
③ 按字节操作会导致 I/O 次数激增（如读取 1MB 数据需 262144 次字节 I/O，而 4KB 页面仅需 256 次），严重降低性能。

3. 基础题：缓冲池管理器的核心职责有 4 项，请列举并简要说明其中 2 项。

答案：
① 页面缓存管理：维护内存中的页面缓存，优先从缓存响应页面请求（命中则更新访问状态），未命中则从磁盘加载页面并加入缓存；
② 脏页处理：跟踪内存中被修改的 “脏页”，在页面替换前或主动刷盘时，将脏页数据写回磁盘，确保持久性（避免内存数据丢失）；
③ LRU 替换策略：当缓存满时，筛选 “最近最少使用” 且引用计数为 0 的页面进行替换，最大化缓存利用率；
④ 引用计数管理：为每个页面维护引用计数，避免正在被线程使用的页面（计数 > 0）被误替换，保证并发安全。

4. 中等题：在缓冲池的 LRU 替换策略中，“引用计数” 为何是必要的？若省略引用计数会导致什么问题？

答案：

引用计数的必要性：

LRU 策略仅基于 “访问时间” 判断页面优先级，但无法识别 “页面是否正在被使用”—— 若某页面虽长时间未访问（LRU 头部），但当前有线程正在读取 / 修改（如执行 SQL 查询时持有页面），直接替换会导致线程访问失效（数据不一致或空指针）；引用计数通过 “计数 > 0” 标记 “页面正在使用”，确保仅替换计数 = 0 的闲置页面。

省略引用计数的问题：

会导致 “正在使用的页面被误替换”：例如线程 A 正在修改页面 P（未释放），此时缓存满触发 LRU 替换，页面 P 因长期未被其他线程访问被移除；线程 A 后续继续操作页面 P 时，会访问到已失效的内存地址，导致数据写入丢失、查询结果错误，甚至程序崩溃。

5. 中等题：什么是 “脏页”？脏页为何不能直接从缓冲池删除，必须先写回磁盘？请结合 “数据库持久化目标” 解释。

答案：

脏页定义：

缓冲池中被修改过（如执行 UPDATE/INSERT 操作）但尚未写回磁盘的页面，其内存数据与磁盘数据不一致，称为 “脏页”。

必须先写回磁盘的原因：

数据库的核心目标之一是 “持久化”—— 即 “已提交的修改必须永久保存在非易失性存储（磁盘）中，即使发生断电或崩溃”；
若直接删除脏页而不写回磁盘，内存中已修改的数据会丢失，导致磁盘数据停留在修改前的旧版本，破坏 “持久化” 承诺（例如用户提交的转账记录，因脏页未刷盘而消失）；因此必须先将脏页数据同步到磁盘，确保内存与磁盘数据一致后，才能从缓冲池删除。

6. 中等题：PostgreSQL 中，执行 DELETE 操作删除元组后，页面空闲空间不会立即被 FSM（空闲空间映射）识别，需执行 VACUUM 命令才能更新，这一设计的原因是什么？

答案：
核心是 “平衡性能与空间管理效率”：
① 避免实时同步的性能开销：若删除元组后立即更新 FSM，需加锁修改 FSM 结构（防止并发读写冲突），而高频 DELETE 场景下（如每秒 thousands 次删除），锁竞争会严重阻塞其他操作（如插入、查询），降低数据库吞吐量；
② 延迟清理的合理性：删除元组时仅 “标记删除”（Lazy Delete），不立即移动数据或更新 FSM，可快速完成删除操作；后续通过 VACUUM（手动或自动）批量清理无效标记、合并空闲空间并更新 FSM，将 “分散的小开销” 转化为 “集中的批量处理”，减少锁竞争，提升整体性能；
③ 兼容 MVCC 机制：PostgreSQL 基于 MVCC（多版本并发控制），删除的元组可能仍被旧事务读取（未超过事务可见性范围），实时更新 FSM 可能导致新插入数据覆盖旧版本元组，破坏 MVCC 的可见性规则；VACUUM 会在 “所有依赖旧元组的事务结束后” 清理，确保数据一致性。

7. 较难题：数据库页面大小选择需权衡 “I/O 次数” 与 “空间利用率”，请分析：为什么 “顺序扫描密集型 workload” 适合用大页面（如 64KB），而 “随机写入密集型 workload” 适合用小页面（如 4KB）？

答案：

顺序扫描密集型（如全表查询）适合大页面：

① 减少 I/O 次数：顺序扫描需读取连续页面，大页面单次 I/O 可加载更多数据（如 64KB 页面比 4KB 页面单次加载 16 倍数据），相同数据量下，大页面的 I/O 次数仅为小页面的 1/16，大幅降低磁盘 I/O 开销（尤其 HDD 机械臂移动的延迟成本）；
② 空间利用率影响小：顺序扫描需读取所有数据，即使页面内有少量空闲空间，也无需跳过或碎片化处理，大页面的 “空闲空间浪费” 对整体性能影响可忽略。

随机写入密集型（如高频更新小表）适合小页面：

① 减少无效数据读写：随机写入通常仅修改页面内的少量元组（如更新 1 条 200B 的用户记录），小页面仅需读写 4KB 数据，而大页面需读写 64KB（其中 63.8KB 为未修改的无效数据），大幅降低 I/O 带宽消耗；
② 降低碎片率：随机写入后页面会产生空闲空间，小页面的空闲空间更易被后续同大小的写入重用（如 4KB 页面的空闲空间可直接容纳新的小元组），而大页面的空闲空间若未被大元组利用，会形成 “碎片化空闲”（无法重用），降低空间利用率。

8. 较难题：课程提到 “数据库系统需自行管理数据移动，不依赖 OS 虚拟内存”，请从 “性能” 和 “可靠性” 两个角度解释这一设计的原因。

答案：

性能角度：

① OS 虚拟内存的替换策略不匹配数据库需求：OS 采用 “全局 LRU” 或 “时钟算法”，仅基于内存访问频率决策，无法识别数据库的 “页面重要性”（如索引页面比普通数据页面更常被访问，应优先保留）；而数据库缓冲池可基于 “页面类型、引用计数、事务状态” 定制替换策略，提升缓存命中率；
② 避免 OS 页面交换的开销：OS 虚拟内存不足时会将页面交换到磁盘（swap 分区），但 swap 分区的 I/O 速度远低于数据库自行管理的磁盘文件（OS 交换无 “顺序优化”“预读取”），且交换逻辑不可控（可能将核心索引页面交换出去），导致数据库性能骤降；数据库自行管理可避免无意义的 swap 操作。

可靠性角度：

① 确保脏页持久化可控：OS 虚拟内存会自动将内存页面写回 swap 分区，但仅为 “临时存储”（非数据库数据文件），若发生 OS 崩溃，swap 分区的脏页数据会丢失；而数据库缓冲池的脏页刷盘直接写入正式数据文件，严格保障持久化；
② 避免数据一致性问题：OS 可能在数据库不知情的情况下移动 / 替换页面（如内存压缩、碎片整理），若此时数据库正在修改页面，可能导致数据损坏（如页面数据被覆盖）；数据库自行管理内存可完全掌控页面生命周期，避免此类不可控风险。

9. 难题：Neon 数据库采用 “计算与存储分离” 架构（计算层无状态，存储层含 Safekeeper 和 Page Server），这种架构对缓冲池管理器的设计有什么影响？需做出哪些调整？

答案：

核心影响：

传统缓冲池的 “磁盘 I/O” 变为 “网络 I/O”（计算层需从远程 Page Server 获取页面），且存储层提供 “版本化页面”（支持时间旅行查询），缓冲池需适配网络延迟与版本管理。

需调整的设计：

① 增加 “网络 I/O 优化”：网络延迟（100ms+）远高于本地磁盘（HDD 10ms、SSD 100μs），缓冲池需延长页面缓存时间（减少网络请求），并支持 “批量预读取”（一次请求多个连续页面，降低网络往返开销）；
② 页面版本管理：Page Server 存储页面的多个历史版本（如版本 1、版本 2），缓冲池需在页面 ID 中加入 “版本号”（如 “table1-0-v3”），避免不同版本页面混淆，同时支持 “按版本加载页面”（满足时间旅行查询需求）；
③ 脏页刷盘逻辑简化：计算层无状态，不直接写磁盘，缓冲池的脏页无需刷回本地磁盘，而是通过 “提交 WAL 日志到 Safekeeper” 实现持久化，缓冲池仅需管理 “内存脏页的临时缓存”，刷盘职责转移到存储层；
④ 弹性缓存容量：计算层支持秒级扩缩容（无状态实例动态启停），缓冲池需设计 “分布式缓存同步” 机制（如多个计算实例共享缓存元数据），避免重复从 Page Server 加载同一页面，或支持 “无状态缓冲池”（实例启停时不保留缓存，依赖存储层快速响应）。

10. 难题：在混合存储环境（同一系统含 HDD 和 SSD，HDD 存冷数据，SSD 存热数据）下，缓冲池管理器如何设计 “分层缓存策略”，才能最大化利用两种硬件的优势？请详细说明替换与刷盘逻辑。

答案：

分层缓存设计：

将缓冲池分为两层：① 一级缓存（内存，对应传统缓冲池）→② 二级缓存（SSD，存热数据页面）→③ 三级存储（HDD，存冷数据页面），形成 “内存 - SSD-HDD” 的三级缓存架构，利用 SSD 的高随机读写速度缓解 HDD 延迟，同时用 HDD 降低存储成本。

替换逻辑：

① 一级缓存（内存）替换：仍采用 “LRU + 引用计数”，但被替换的页面需判断 “热度”—— 若页面最近访问频率高（如近 5 分钟被访问≥3 次），不直接丢弃，而是写入二级缓存（SSD），避免后续需重新从 HDD 加载；若访问频率低，则直接丢弃；
② 二级缓存（SSD）替换：采用 “LRU-K 算法”（基于最近 K 次访问），筛选 “长期未被访问” 的冷页面，从 SSD 删除并确保其数据已在 HDD 中存在（若为脏页，需先刷回 HDD），为新热页面腾出空间；
③ 优先级排序：内存缓存优先保留 “高频读写页面”（如索引页、活跃用户表），SSD 缓存保留 “中频访问页面”（如近 7 天的订单表），HDD 存储 “低频访问页面”（如 1 年前的历史日志表）。

刷盘逻辑：

① 内存脏页刷盘：优先刷入 SSD（若页面为热数据），利用 SSD 的高写入速度；若页面为冷数据（仅偶尔修改），直接刷入 HDD，避免占用 SSD 空间；
② SSD 脏页刷盘：定期（如每小时）将 SSD 中的脏页批量刷回 HDD（长期存储），SSD 仅保留 “临时热数据”，避免 SSD 因频繁写入耗尽寿命（SSD 有擦写次数限制）；
③ 故障恢复：SSD 作为 “临时缓存”，若发生 SSD 故障，内存脏页可通过 WAL 日志恢复，SSD 脏页已定期刷回 HDD，确保数据不丢失，仅需重新从 HDD 加载热数据到 SSD 即可恢复服务。

场景题

以下 5 道场景题均结合 Java 开发实践 与 CMU 15-445 课程核心知识点（缓冲池、页面管理、I/O 优化、并发安全、持久化），场景源自数据库开发真实需求，难度逐步递增，答案包含问题分析、知识点对应及 Java 代码实现关键逻辑。

场景题 1：多线程并发获取页面的线程安全问题

场景描述：

某团队用 Java 实现缓冲池管理器时，在高并发场景下（如 100 个线程同时查询同一张表的不同页面），出现 “LRU 链表元素重复”“引用计数统计错误” 的问题，导致页面替换异常（已释放的页面未被替换，缓存满后无法加载新页面）。请分析问题原因，并修改之前的BufferPoolManager类，确保多线程并发安全。

场景题 2：顺序扫描场景下的页面预读取优化

场景描述：

某电商系统需频繁执行 “全表扫描订单表”（订单表共 1000 个页面，页面 ID 为order-0~order-999），当前缓冲池仅在调用getPage(pageId)时才加载单个页面，导致顺序扫描过程中产生 1000 次磁盘 I/O，性能低下。请基于课程 “预读取” 知识点，在 Java 缓冲池管理器中实现 “相邻页面预读取” 功能（获取order-n时，自动预加载order-n+1和order-n+2），并说明预读取的边界条件（如避免预加载不存在的页面）。

场景题 3：磁盘满导致脏页刷盘失败的异常处理

场景描述：

某 Java 缓冲池管理器在执行flushPage(pageId)时，因磁盘空间不足触发IOException，此时脏页数据既未写入磁盘，也未保留在缓冲池（原代码直接删除脏页），导致数据丢失。请结合课程 “持久化可靠性” 要求，修改flushPage方法，处理磁盘满的异常场景，确保：① 脏页不丢失；② 记录错误日志；③ 支持后续重试刷盘。

场景题 4：混合存储（HDD+SSD）的两级缓冲设计

场景描述：

某数据库部署在混合存储环境（SSD 存储热数据，HDD 存储冷数据），需设计 Java 两级缓冲池：① 一级缓存（内存，容量 20）；② 二级缓存（SSD，通过SSDManager操作，容量 100）。规则为：获取页面时优先查内存→再查 SSD→最后查 HDD；替换时内存满则将冷页面移入 SSD，SSD 满则将冷页面移入 HDD。请基于课程 “分层存储” 知识点，实现核心逻辑（含getPage和evict方法）。

场景题 5：基于页面热度的动态缓存容量调整

场景描述：

某 Java 缓冲池当前为固定容量（20），但实际运行中发现：白天高峰期（10:00-18:00）页面访问频繁，缓存命中率仅 50%（需扩容）；夜间低峰期（0:00-6:00）访问量低，缓存空闲率 80%（需缩容）。请结合课程 “缓存利用率优化” 知识点，实现 “基于热度的动态容量调整”：① 每 5 分钟统计缓存命中率（命中次数 /(命中 + 未命中次数)）；② 命中率 < 60% 则扩容 20%，>90% 则缩容 20%；③ 调整时需处理正在使用的页面（避免缩容时删除活跃页面）。

1 条评论

好学且牛逼的马 2025.12.11
数据库导论#3 核心知识点总结一、数据库设计核心：范式与数据建模 1. 数据库设计三阶段 - 需求分析：明确业务场景（如电商、教务）、数据实体（用户、订单）、实体属性及关联关系（一对一/一对多/多对多）。 - 概念建模：用E-R图（实体-关系图）描述实体、属性、关系，核心要素：实体（矩形）、属性（椭圆）、关系（菱形，标注联系类型）。 - 逻辑建模：将E-R图转化为关系模式（数据表），处理多对多关系需新增中间表（如“学生-课程”多对多→新增“选课表”关联两者主键）。 2. 数据库规范化（范式） - 1NF（第一范式）：属性不可再分（原子性），例：“联系方式”拆分为“电话”“邮箱”，避免复合属性。 - 2NF（第二范式）：满足1NF + 消除部分函数依赖（非主键属性完全依赖于主键，而非主键的一部分），核心：主键需为候选键（无冗余）。 - 3NF（第三范式）：满足2NF + 消除传递函数依赖（非主键属性不依赖于其他非主键属性），例：“学生表”删除“系主任”字段，改为通过“院系表”关联查询（系主任依赖于院系，而非学生）。 - BCNF（巴斯-科德范式）：3NF的强化版，消除主键对主键的部分依赖/传递依赖，适用于复杂关联场景（如多候选键场景）。 - 范式核心目标：减少数据冗余、避免插入/删除/更新异常，实践中需平衡范式与查询性能（过度规范化可能导致多表连接效率低）。二、索引原理与优化 1. 索引的本质与作用 - 定义：数据库表的“目录”，基于特定列构建的数据结构（默认B+树），用于快速定位数据，减少全表扫描。 - 核心作用：提升查询效率（WHERE、JOIN、ORDER BY 场景），代价：占用存储空间，插入/更新/删除时需维护索引（性能损耗）。 2. 索引类型与适用场景 - 主键索引（PRIMARY KEY）：默认唯一+非空，B+树结构，查询效率最高，一张表仅一个。 - 唯一索引（UNIQUE）：列值唯一（允许NULL），避免重复数据，适用于手机号、身份证号等字段。 - 普通索引（INDEX）：无约束限制，适用于查询频繁的字段（如商品名称、用户ID）。 - 联合索引（复合索引）：基于多列构建（如 INDEX idx_sno_cno(Sno,Cno) ），遵循“最左前缀匹配原则”，适用于多列联合查询场景。 - 全文索引（FULLTEXT）：用于字符串字段的模糊匹配（如文章内容搜索），不适用于短字符串（如手机号）。 3. 索引使用关键原则 - 创建索引的场景：查询频繁的列、JOIN/ORDER BY 频繁的列、数据基数高的列（如性别字段基数低，建索引无意义）。 - 避免创建索引的场景：插入/更新/删除频繁的表、数据量小的表、查询条件中用函数/表达式操作的列（如 WHERE SUBSTR(name,1,1)='张' ，索引失效）。 - 索引失效常见情况：使用!=、NOT IN、IS NULL/IS NOT NULL、模糊查询（%开头，如 LIKE '%手机' ）、联合索引不满足最左前缀。三、事务与并发控制 1. 事务的ACID特性 - 原子性（Atomicity）：事务是不可分割的最小单位，要么全执行，要么全回滚（如转账：扣款和到账必须同时成功或失败）。 - 一致性（Consistency）：事务执行前后，数据库数据完整性约束不被破坏（如转账后总金额不变）。 - 隔离性（Isolation）：多个事务并发执行时，相互隔离，不影响彼此数据（避免并发问题）。 - 持久性（Durability）：事务提交后，数据修改永久生效（即使数据库崩溃也不会丢失）。 2. 并发事务带来的问题 - 脏读：读取到其他事务未提交的修改（如A转账给B，未提交时B查询到到账金额，后A回滚，B读取的数据无效）。 - 不可重复读：同一事务内多次查询同一数据，结果不一致（如A查询余额100，同时B转账50并提交，A再次查询余额150）。 - 幻读：同一事务内多次执行同一查询，返回的记录数不一致（如A查询“年龄<20”的用户有10人，同时B新增1个符合条件的用户，A再次查询有11人）。 3. 事务隔离级别（从低到高） - 读未提交（Read Uncommitted）：允许读取未提交的修改，可能出现脏读、不可重复读、幻读（性能最高，安全性最低）。 - 读已提交（Read Committed）：仅读取已提交的修改，避免脏读，可能出现不可重复读、幻读（主流数据库默认级别，如MySQL）。 - 可重复读（Repeatable Read）：同一事务内多次查询结果一致，避免脏读、不可重复读，可能出现幻读（MySQL默认隔离级别）。 - 串行化（Serializable）：事务串行执行，避免所有并发问题（安全性最高，性能最低，适用于数据一致性要求极高的场景）。四、实践关键注意事项 - 数据库设计技巧：优先满足3NF，多对多关系必须拆中间表，一对一关系可合并表或用外键关联（根据查询频率选择）。 - 索引优化实战：联合索引列顺序按“查询频率+基数”排序（高频列在前），避免过度建索引（一张表索引数建议≤5个）。 - 事务使用规范：避免长事务（占用资源久，影响并发），明确设置隔离级别（根据业务场景选择，无需盲目追求高隔离），提交/回滚及时。