架构之索引

原创于 2025-12-13 23:57:59 发布 · 563 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#架构 #索引

Architect 专栏收录该内容

21 篇文章

订阅专栏

架构之索引

引言

在现代数据密集型应用中，数据查询性能往往决定了系统的整体性能表现。随着数据量的爆炸式增长，如何在海量数据中快速定位所需信息成为架构设计的核心挑战。索引作为数据库系统的核心组件，其架构设计直接影响着系统的查询性能、写入性能和存储效率。

索引架构法则强调：高性能数据查询需要合理的索引设计，基于B-Tree或LSM-Tree等数据结构的索引架构能够满足不同场景的读写需求，通过插件式存储引擎实现灵活的索引策略选择，在保证查询性能的同时平衡写入性能和存储成本。

索引架构的核心理念

为什么需要索引架构？

索引架构能够解决上述挑战：

查询性能提升：通过索引快速定位数据，避免全表扫描
读写负载均衡：根据不同读写比例选择合适的索引结构
存储效率优化：平衡索引维护成本和查询性能收益
场景适配：为不同业务场景提供最优的索引策略

主流索引数据结构

B-Tree索引架构

B-Tree核心原理

B-Tree（Balanced Tree）是一种自平衡的树数据结构，能够保持数据有序，特别适合数据库索引场景。

B+Tree实现原理

// B+Tree节点定义
public class BPlusTreeNode<K extends Comparable<K>, V> {
    private static final int DEFAULT_ORDER = 128; // 默认阶数
    
    protected int order;                    // B+树阶数
    protected List<K> keys;                 // 关键字列表
    protected boolean isLeaf;               // 是否为叶子节点
    protected BPlusTreeNode<K, V> parent;   // 父节点
    protected BPlusTreeNode<K, V> next;     // 下一个叶子节点（用于范围查询）
    
    // 内部节点特有属性
    protected List<BPlusTreeNode<K, V>> children; // 子节点列表
    
    // 叶子节点特有属性
    protected List<V> values;               // 值列表
    
    public BPlusTreeNode(int order, boolean isLeaf) {
        this.order = order;
        this.isLeaf = isLeaf;
        this.keys = new ArrayList<>();
        
        if (isLeaf) {
            this.values = new ArrayList<>();
        } else {
            this.children = new ArrayList<>();
        }
    }
}

// B+Tree索引实现
@Component
public class BPlusTreeIndex<K extends Comparable<K>, V> {
    private static final Logger log = LoggerFactory.getLogger(BPlusTreeIndex.class);
    
    private BPlusTreeNode<K, V> root;     // 根节点
    private int order;                    // B+树阶数
    private int size;                     // 索引项数量
    
    public BPlusTreeIndex(int order) {
        this.order = order;
        this.root = new BPlusTreeNode<>(order, true);
        this.size = 0;
    }
    
    /**
     * 查询操作
     */
    public V search(K key) {
        return searchInNode(root, key);
    }
    
    private V searchInNode(BPlusTreeNode<K, V> node, K key) {
        // 在节点中查找关键字
        int index = findKeyIndex(node.keys, key);
        
        if (node.isLeaf) {
            // 叶子节点：检查是否找到精确匹配
            if (index < node.keys.size() && node.keys.get(index).equals(key)) {
                return node.values.get(index);
            }
            return null;
        } else {
            // 内部节点：递归搜索子节点
            return searchInNode(node.children.get(index), key);
        }
    }
    
    /**
     * 范围查询
     */
    public List<V> rangeSearch(K startKey, K endKey) {
        List<V> result = new ArrayList<>();
        BPlusTreeNode<K, V> node = findLeafNode(root, startKey);
        
        while (node != null) {
            for (int i = 0; i < node.keys.size(); i++) {
                K key = node.keys.get(i);
                
                // 检查是否在范围内
                if (key.compareTo(startKey) >= 0 && key.compareTo(endKey) <= 0) {
                    result.add(node.values.get(i));
                }
                
                // 超出范围，结束查询
                if (key.compareTo(endKey) > 0) {
                    return result;
                }
            }
            
            // 移动到下一个叶子节点
            node = node.next;
        }
        
        return result;
    }
    
    /**
     * 插入操作
     */
    public void insert(K key, V value) {
        BPlusTreeNode<K, V> leaf = findLeafNode(root, key);
        
        // 在叶子节点中插入
        int index = findKeyIndex(leaf.keys, key);
        leaf.keys.add(index, key);
        leaf.values.add(index, value);
        size++;
        
        // 检查是否需要分裂
        if (leaf.keys.size() >= order) {
            splitLeafNode(leaf);
        }
    }
    
    /**
     * 叶子节点分裂
     */
    private void splitLeafNode(BPlusTreeNode<K, V> leaf) {
        int midIndex = leaf.keys.size() / 2;
        
        // 创建新叶子节点
        BPlusTreeNode<K, V> newLeaf = new BPlusTreeNode<>(order, true);
        
        // 移动一半数据到新节点
        for (int i = midIndex; i < leaf.keys.size(); i++) {
            newLeaf.keys.add(leaf.keys.get(i));
            newLeaf.values.add(leaf.values.get(i));
        }
        
        // 更新原节点
        leaf.keys.subList(midIndex, leaf.keys.size()).clear();
        leaf.values.subList(midIndex, leaf.values.size()).clear();
        
        // 维护叶子节点链表
        newLeaf.next = leaf.next;
        leaf.next = newLeaf;
        
        // 插入父节点
        insertIntoParent(leaf, newLeaf.keys.get(0), newLeaf);
    }
    
    /**
     * 查找叶子节点
     */
    private BPlusTreeNode<K, V> findLeafNode(BPlusTreeNode<K, V> node, K key) {
        while (!node.isLeaf) {
            int index = findKeyIndex(node.keys, key);
            node = node.children.get(index);
        }
        return node;
    }
    
    /**
     * 二分查找关键字位置
     */
    private int findKeyIndex(List<K> keys, K key) {
        int low = 0, high = keys.size() - 1;
        
        while (low <= high) {
            int mid = (low + high) / 2;
            int cmp = key.compareTo(keys.get(mid));
            
            if (cmp == 0) {
                return mid; // 找到精确匹配
            } else if (cmp < 0) {
                high = mid - 1;
            } else {
                low = mid + 1;
            }
        }
        
        return low; // 返回插入位置
    }
    
    /**
     * 性能测试
     */
    public void performanceTest() {
        log.info("=== B+Tree性能测试 ===");
        
        // 测试不同数据量下的性能
        int[] dataSizes = {1000, 10000, 100000, 1000000};
        
        for (int size : dataSizes) {
            BPlusTreeIndex<Integer, String> index = new BPlusTreeIndex<>(128);
            
            // 插入性能测试
            long startTime = System.currentTimeMillis();
            for (int i = 0; i < size; i++) {
                index.insert(i, "value_" + i);
            }
            long insertTime = System.currentTimeMillis() - startTime;
            
            // 查询性能测试
            startTime = System.currentTimeMillis();
            for (int i = 0; i < size; i++) {
                String value = index.search(i);
                if (value == null || !value.equals("value_" + i)) {
                    log.error("查询结果错误: key={}", i);
                }
            }
            long searchTime = System.currentTimeMillis() - startTime;
            
            log.info("数据量: {}, 插入时间: {}ms, 查询时间: {}ms, 平均插入: {}μs, 平均查询: {}μs", 
                size, insertTime, searchTime, 
                (insertTime * 1000) / size, (searchTime * 1000) / size);
        }
    }
}

B-Tree适用场景

场景1：传统关系型数据库系统

典型代表：MySQL InnoDB、PostgreSQL、Oracle、SQL Server

核心特点：

读写比例均衡：典型的读写比例在70:30到60:40之间
事务支持完善：需要ACID事务保证数据一致性
范围查询频繁：支持WHERE子句中的范围条件查询
数据更新活跃：频繁的INSERT、UPDATE、DELETE操作

适用查询模式：

-- 范围查询（B+Tree最擅长）
SELECT * FROM orders WHERE order_date BETWEEN '2024-01-01' AND '2024-12-31'
SELECT * FROM products WHERE price > 100 AND price < 500
SELECT * FROM users WHERE age BETWEEN 20 AND 30

-- 排序查询
SELECT * FROM transactions ORDER BY transaction_time DESC
SELECT * FROM products ORDER BY price, category

-- 等值查询
SELECT * FROM users WHERE user_id = 12345
SELECT * FROM orders WHERE order_no = 'ORD2024001'

技术优势：

树高度通常为3-4层，查询性能稳定
叶子节点形成有序链表，天然支持范围扫描
支持事务的MVCC机制
节点填充因子50%-100%，空间利用率高

场景2：在线事务处理（OLTP）系统

典型应用：电商订单系统、银行交易系统、库存管理系统

性能要求：

高并发：支持10000+ TPS的并发访问
低延迟：平均响应时间<100ms
强一致性：需要事务的ACID特性
小数据量操作：单次操作通常只涉及少量记录

典型操作：

根据用户ID查询订单列表
根据订单号查询订单详情
更新库存数量（需要行级锁支持）
插入新的订单记录
账户余额查询和更新

架构优势：

B+Tree的平衡性保证查询性能稳定
支持行级锁，适合高并发更新
范围查询效率高，适合分页查询
与事务机制完美结合

场景3：需要范围查询的业务系统

典型行业：金融、电信、电商、物流

查询特征：

时间范围查询：查询某时间段内的交易记录
数值范围查询：查询某个价格区间的商品
分类范围查询：查询某个年龄段、收入段的用户

性能表现：

范围查询复杂度：O(log n + k)，其中k是返回的记录数
支持ORDER BY排序，无需额外排序操作
支持LIMIT分页，查询效率高

数据特征：

数据分布相对均匀，避免严重的数据倾斜
查询条件具有选择性，能够有效过滤数据
需要支持多列组合的范围查询

B-Tree性能优势总结

性能指标	B-Tree表现	说明
查询复杂度	O(log n)	树高度通常为3-4层
插入复杂度	O(log n)	自动平衡，无需重构
删除复杂度	O(log n)	支持节点合并
范围查询	O(log n + k)	k为返回记录数
空间利用率	50%-100%	可配置填充因子
查询稳定性	极高	无最坏情况性能退化

LSM-Tree索引架构

LSM-Tree核心原理

LSM-Tree（Log-Structured Merge Tree）是一种专门为写密集型应用设计的索引结构，通过将随机写转换为顺序写来提升写入性能。

LSM-Tree实现原理

// LSM-Tree核心组件
@Component
public class LSMTreeIndex<K extends Comparable<K>, V> {
    private static final Logger log = LoggerFactory.getLogger(LSMTreeIndex.class);
    
    // 内存组件
    private final MemTable<K, V> memTable;           // 活跃MemTable
    private final MemTable<K, V> immutableMemTable;  // 不可变MemTable
    private final WriteAheadLog<K, V> wal;           // 预写日志
    
    // 磁盘组件
    private final List<SSTable<K, V>> level0;        // Level 0 SSTables
    private final List<List<SSTable<K, V>>> levels;  // Level 1-N SSTables
    private final CompactionStrategy compactionStrategy;
    
    // 配置参数
    private final int memTableSize;                  // MemTable大小限制
    private final int level0FileNum;                 // Level 0文件数量限制
    private final double levelSizeMultiplier;        // 层级大小倍数
    
    public LSMTreeIndex(LSMTreeConfig config) {
        this.memTableSize = config.getMemTableSize();
        this.level0FileNum = config.getLevel0FileNum();
        this.levelSizeMultiplier = config.getLevelSizeMultiplier();
        
        this.memTable = new SkipListMemTable<>();
        this.immutableMemTable = null;
        this.wal = new WriteAheadLog<>(config.getWalPath());
        
        this.level0 = new ArrayList<>();
        this.levels = new ArrayList<>();
        this.compactionStrategy = config.getCompactionStrategy();
    }
    
    /**
     * 写入操作
     */
    public void put(K key, V value) {
        // 1. 写入预写日志（保证持久性）
        wal.append(key, value);
        
        // 2. 写入MemTable
        memTable.put(key, value);
        
        // 3. 检查MemTable是否需要刷新
        if (memTable.size() >= memTableSize) {
            flushMemTable();
        }
    }
    
    /**
     * 查询操作
     */
    public V get(K key) {
        // 1. 查询MemTable
        V value = memTable.get(key);
        if (value != null) {
            return value;
        }
        
        // 2. 查询不可变MemTable
        if (immutableMemTable != null) {
            value = immutableMemTable.get(key);
            if (value != null) {
                return value;
            }
        }
        
        // 3. 查询Level 0 SSTables（从新到旧）
        for (int i = level0.size() - 1; i >= 0; i--) {
            value = level0.get(i).get(key);
            if (value != null) {
                return value;
            }
        }
        
        // 4. 查询Level 1-N SSTables
        for (List<SSTable<K, V>> level : levels) {
            for (SSTable<K, V> ssTable : level) {
                value = ssTable.get(key);
                if (value != null) {
                    return value;
                }
            }
        }
        
        return null;
    }
    
    /**
     * 刷新MemTable到磁盘
     */
    private void flushMemTable() {
        log.info("刷新MemTable到磁盘，大小: {}", memTable.size());
        
        // 1. 将当前MemTable转为不可变MemTable
        immutableMemTable = memTable;
        
        // 2. 创建新的MemTable
        memTable = new SkipListMemTable<>();
        
        // 3. 异步刷新到磁盘
        CompletableFuture.runAsync(() -> {
            try {
                // 创建新的SSTable
                SSTable<K, V> newSSTable = SSTableBuilder.buildFromMemTable(
                    immutableMemTable, 
                    generateSSTableName(0, level0.size())
                );
                
                // 添加到Level 0
                synchronized (level0) {
                    level0.add(newSSTable);
                }
                
                // 清空不可变MemTable
                immutableMemTable = null;
                
                // 检查是否需要合并
                checkCompaction();
                
            } catch (Exception e) {
                log.error("刷新MemTable失败", e);
            }
        });
    }
    
    /**
     * 合并策略
     */
    private void checkCompaction() {
        // Level 0合并检查
        if (level0.size() >= level0FileNum) {
            compactLevel0();
        }
        
        // Level 1-N合并检查
        for (int level = 1; level < levels.size(); level++) {
            if (shouldCompactLevel(level)) {
                compactLevel(level);
            }
        }
    }
    
    /**
     * Level 0合并
     */
    private void compactLevel0() {
        log.info("开始Level 0合并，文件数量: {}", level0.size());
        
        synchronized (level0) {
            if (level0.isEmpty()) return;
            
            // 选择要合并的SSTables
            List<SSTable<K, V>> toCompact = new ArrayList<>(level0);
            level0.clear();
            
            // 执行合并
            List<SSTable<K, V>> compacted = compactionStrategy.compact(
                toCompact, 
                getLevelSSTables(1),
                1
            );
            
            // 更新Level 1
            updateLevelSSTables(1, compacted);
        }
    }
    
    /**
     * 性能测试
     */
    public void performanceTest() {
        log.info("=== LSM-Tree性能测试 ===");
        
        // 测试不同读写比例下的性能
        double[] writeRatios = {0.1, 0.3, 0.5, 0.7, 0.9};
        int totalOperations = 100000;
        
        for (double writeRatio : writeRatios) {
            LSMTreeIndex<Integer, String> index = new LSMTreeIndex<>(
                LSMTreeConfig.builder()
                    .memTableSize(10000)
                    .level0FileNum(4)
                    .build()
            );
            
            int writeCount = (int) (totalOperations * writeRatio);
            int readCount = totalOperations - writeCount;
            
            // 写入性能测试
            long startTime = System.currentTimeMillis();
            for (int i = 0; i < writeCount; i++) {
                index.put(i, "value_" + i);
            }
            long writeTime = System.currentTimeMillis() - startTime;
            
            // 查询性能测试
            startTime = System.currentTimeMillis();
            for (int i = 0; i < readCount; i++) {
                String value = index.get(i);
                if (value == null || !value.equals("value_" + i)) {
                    log.error("查询结果错误: key={}", i);
                }
            }
            long readTime = System.currentTimeMillis() - startTime;
            
            log.info("写比例: {}%, 写入: {}次/{}ms, 查询: {}次/{}ms, 总TPS: {}", 
                (int)(writeRatio * 100), writeCount, writeTime, readCount, readTime,
                (totalOperations * 1000) / (writeTime + readTime));
        }
    }
}

// MemTable接口
interface MemTable<K extends Comparable<K>, V> {
    void put(K key, V value);
    V get(K key);
    void delete(K key);
    int size();
    Iterator<Map.Entry<K, V>> iterator();
}

// SkipList实现MemTable
class SkipListMemTable<K extends Comparable<K>, V> implements MemTable<K, V> {
    private final ConcurrentSkipListMap<K, V> map;
    
    public SkipListMemTable() {
        this.map = new ConcurrentSkipListMap<>();
    }
    
    @Override
    public void put(K key, V value) {
        map.put(key, value);
    }
    
    @Override
    public V get(K key) {
        return map.get(key);
    }
    
    @Override
    public void delete(K key) {
        map.remove(key);
    }
    
    @Override
    public int size() {
        return map.size();
    }
    
    @Override
    public Iterator<Map.Entry<K, V>> iterator() {
        return map.entrySet().iterator();
    }
}

LSM-Tree适用场景

场景1：写密集型应用系统

典型代表：日志收集系统、监控系统、事件追踪系统

核心特点：

写入比例极高：读写比例可达90:10甚至更高
高吞吐量要求：需要支持10万+写入/秒
可接受读取延迟：读取延迟在100ms范围内可接受
数据写入模式：数据写入后很少更新，主要是追加操作

典型应用场景：

系统日志收集：
- 应用服务器产生大量日志
- 需要实时收集和存储
- 偶尔需要按时间范围查询

用户行为追踪：
- 记录用户点击、浏览等行为
- 高并发写入，低频查询
- 支持时间窗口分析

IoT数据收集：
- 传感器持续产生数据
- 需要高吞吐量写入
- 支持设备状态监控

技术优势：

顺序写入磁盘，避免随机I/O
内存缓冲区批量写入，提升吞吐量
写入复杂度O(log n)，性能稳定
支持高并发写入，易于水平扩展

场景2：时序数据库系统

典型代表：InfluxDB、OpenTSDB、Prometheus

数据特征：

时间顺序写入：数据按时间戳顺序到达
近期数据查询频繁：主要查询最近1小时、1天的数据
历史数据批量查询：偶尔需要查询历史数据进行聚合分析
数据不可变性：时序数据一旦写入通常不会修改

查询模式：

-- 查询最近1小时的数据
SELECT * FROM metrics WHERE time > now() - 1h

-- 查询某时间段的数据
SELECT mean(value) FROM metrics
WHERE time >= '2024-01-01' AND time < '2024-01-02'

-- 聚合查询
SELECT max(value), min(value), avg(value)
FROM metrics
WHERE time > now() - 24h
GROUP BY time(1h)

架构优势：

时间局部性好，最近数据在内存中
支持高效的时间范围查询
压缩率高，节省存储空间
支持数据生命周期管理

场景3：NoSQL大数据系统

典型代表：Cassandra、RocksDB、LevelDB、HBase

应用场景：

社交媒体数据存储：用户发帖、评论、点赞数据
推荐系统数据存储：用户行为数据、物品特征数据
物联网数据平台：设备数据、传感器数据、控制指令

系统特点：

高可扩展性：需要支持PB级数据存储
最终一致性：可接受最终一致性模型
大数据量处理：单表数据量可达TB甚至PB级
分布式架构：支持分布式部署和水平扩展

技术优势：

高写入吞吐量，适合大数据量写入
良好的水平扩展性，支持分布式部署
压缩存储效率高，节省存储成本
支持数据分片和负载均衡

LSM-Tree性能优势总结

性能指标	LSM-Tree表现	说明
写入性能	极佳	顺序写入，避免随机I/O
读取性能	良好	需要多层查询，但可通过优化提升
压缩效率	极高	支持块级压缩，存储空间节省60%+
扩展性	优秀	天然支持分布式部署
写入放大	较低	顺序写入减少磁盘磨损
空间放大	可控	通过合并策略控制空间使用

插件式存储引擎架构

架构设计理念

插件式存储引擎架构通过将存储层与Server层解耦，实现不同索引结构的灵活选择和替换。

MySQL存储引擎插件架构

// 存储引擎接口定义
public interface StorageEngine {
    /**
     * 初始化存储引擎
     */
    void initialize(EngineConfig config);
    
    /**
     * 创建表
     */
    TableHandle createTable(TableSchema schema);
    
    /**
     * 插入数据
     */
    InsertResult insert(TableHandle table, Record record);
    
    /**
     * 查询数据
     */
    QueryResult query(TableHandle table, QueryCondition condition);
    
    /**
     * 更新数据
     */
    UpdateResult update(TableHandle table, Record record, QueryCondition condition);
    
    /**
     * 删除数据
     */
    DeleteResult delete(TableHandle table, QueryCondition condition);
    
    /**
     * 开始事务
     */
    Transaction beginTransaction();
    
    /**
     * 提交事务
     */
    void commit(Transaction transaction);
    
    /**
     * 回滚事务
     */
    void rollback(Transaction transaction);
    
    /**
     * 获取引擎统计信息
     */
    EngineStats getStats();
    
    /**
     * 关闭存储引擎
     */
    void shutdown();
}

// InnoDB存储引擎实现（B+Tree索引）
@Component
public class InnoDBStorageEngine implements StorageEngine {
    private static final Logger log = LoggerFactory.getLogger(InnoDBStorageEngine.class);
    
    private final Map<String, InnoDBTable> tables;
    private final BufferPool bufferPool;
    private final RedoLogManager redoLogManager;
    private final LockManager lockManager;
    
    @Override
    public void initialize(EngineConfig config) {
        log.info("初始化InnoDB存储引擎");
        
        // 初始化缓冲池
        this.bufferPool = new BufferPool(config.getBufferPoolSize());
        
        // 初始化重做日志管理器
        this.redoLogManager = new RedoLogManager(config.getRedoLogPath());
        
        // 初始化锁管理器
        this.lockManager = new LockManager();
        
        // 初始化表管理器
        this.tables = new ConcurrentHashMap<>();
        
        log.info("InnoDB存储引擎初始化完成");
    }
    
    @Override
    public TableHandle createTable(TableSchema schema) {
        String tableName = schema.getTableName();
        
        // 创建InnoDB表
        InnoDBTable table = new InnoDBTable(schema, bufferPool, redoLogManager, lockManager);
        tables.put(tableName, table);
        
        log.info("创建InnoDB表: {}", tableName);
        return new TableHandle(tableName, "InnoDB");
    }
    
    @Override
    public InsertResult insert(TableHandle table, Record record) {
        InnoDBTable innodbTable = tables.get(table.getTableName());
        if (innodbTable == null) {
            throw new TableNotFoundException(table.getTableName());
        }
        
        try {
            // 获取行锁
            RowLock lock = lockManager.acquireLock(table.getTableName(), record.getPrimaryKey());
            
            // 执行插入操作
            RowID rowId = innodbTable.insert(record);
            
            // 记录重做日志
            redoLogManager.logInsert(table.getTableName(), record);
            
            return InsertResult.success(rowId);
            
        } catch (Exception e) {
            log.error("InnoDB插入失败", e);
            return InsertResult.failure(e.getMessage());
        }
    }
    
    @Override
    public QueryResult query(TableHandle table, QueryCondition condition) {
        InnoDBTable innodbTable = tables.get(table.getTableName());
        if (innodbTable == null) {
            throw new TableNotFoundException(table.getTableName());
        }
        
        try {
            // 解析查询条件
            IndexSelector indexSelector = new IndexSelector(innodbTable.getIndexes());
            Index chosenIndex = indexSelector.selectBestIndex(condition);
            
            // 执行查询
            List<Record> records = innodbTable.query(condition, chosenIndex);
            
            return QueryResult.success(records);
            
        } catch (Exception e) {
            log.error("InnoDB查询失败", e);
            return QueryResult.failure(e.getMessage());
        }
    }
    
    @Override
    public EngineStats getStats() {
        return EngineStats.builder()
            .engineName("InnoDB")
            .tableCount(tables.size())
            .bufferPoolStats(bufferPool.getStats())
            .redoLogStats(redoLogManager.getStats())
            .lockStats(lockManager.getStats())
            .build();
    }
    
    @Override
    public void shutdown() {
        log.info("关闭InnoDB存储引擎");
        
        // 刷新所有缓冲页到磁盘
        bufferPool.flushAll();
        
        // 关闭重做日志
        redoLogManager.shutdown();
        
        log.info("InnoDB存储引擎已关闭");
    }
}

// MyRocks存储引擎实现（LSM-Tree索引）
@Component
public class MyRocksStorageEngine implements StorageEngine {
    private static final Logger log = LoggerFactory.getLogger(MyRocksStorageEngine.class);
    
    private final Map<String, MyRocksTable> tables;
    private final RocksDBManager rocksDBManager;
    private final CompactionManager compactionManager;
    
    @Override
    public void initialize(EngineConfig config) {
        log.info("初始化MyRocks存储引擎");
        
        // 初始化RocksDB管理器
        this.rocksDBManager = new RocksDBManager(config.getDataPath());
        
        // 初始化合并管理器
        this.compactionManager = new CompactionManager(rocksDBManager);
        
        // 初始化表管理器
        this.tables = new ConcurrentHashMap<>();
        
        log.info("MyRocks存储引擎初始化完成");
    }
    
    @Override
    public TableHandle createTable(TableSchema schema) {
        String tableName = schema.getTableName();
        
        // 创建MyRocks表
        MyRocksTable table = new MyRocksTable(schema, rocksDBManager);
        tables.put(tableName, table);
        
        log.info("创建MyRocks表: {}", tableName);
        return new TableHandle(tableName, "MyRocks");
    }
    
    @Override
    public InsertResult insert(TableHandle table, Record record) {
        MyRocksTable myrocksTable = tables.get(table.getTableName());
        if (myrocksTable == null) {
            throw new TableNotFoundException(table.getTableName());
        }
        
        try {
            // MyRocks使用LSM-Tree，写入性能优异
            RowID rowId = myrocksTable.insert(record);
            
            return InsertResult.success(rowId);
            
        } catch (Exception e) {
            log.error("MyRocks插入失败", e);
            return InsertResult.failure(e.getMessage());
        }
    }
    
    @Override
    public QueryResult query(TableHandle table, QueryCondition condition) {
        MyRocksTable myrocksTable = tables.get(table.getTableName());
        if (myrocksTable == null) {
            throw new TableNotFoundException(table.getTableName());
        }
        
        try {
            // MyRocks支持多种索引类型
            List<Record> records = myrocksTable.query(condition);
            
            return QueryResult.success(records);
            
        } catch (Exception e) {
            log.error("MyRocks查询失败", e);
            return QueryResult.failure(e.getMessage());
        }
    }
    
    @Override
    public EngineStats getStats() {
        return EngineStats.builder()
            .engineName("MyRocks")
            .tableCount(tables.size())
            .rocksdbStats(rocksDBManager.getStats())
            .compactionStats(compactionManager.getStats())
            .build();
    }
    
    @Override
    public void shutdown() {
        log.info("关闭MyRocks存储引擎");
        
        // 等待合并操作完成
        compactionManager.shutdown();
        
        // 关闭RocksDB
        rocksDBManager.shutdown();
        
        log.info("MyRocks存储引擎已关闭");
    }
}

存储引擎选择策略

// 存储引擎选择服务
@Service
public class StorageEngineSelector {
    private static final Logger log = LoggerFactory.getLogger(StorageEngineSelector.class);
    
    @Autowired
    private List<StorageEngine> availableEngines;
    
    /**
     * 根据业务场景选择最优存储引擎
     */
    public EngineRecommendation selectOptimalEngine(WorkloadProfile profile) {
        log.info("分析工作负载特征: {}", profile);
        
        // 1. 分析读写比例
        double writeRatio = profile.getWriteRatio();
        double readRatio = profile.getReadRatio();
        
        // 2. 分析查询模式
        QueryPattern queryPattern = analyzeQueryPattern(profile);
        
        // 3. 分析数据特征
        DataCharacteristics dataChars = analyzeDataCharacteristics(profile);
        
        // 4. 生成推荐
        EngineRecommendation recommendation = generateRecommendation(
            writeRatio, readRatio, queryPattern, dataChars
        );
        
        log.info("存储引擎推荐: {}", recommendation);
        return recommendation;
    }
    
    /**
     * 分析查询模式
     */
    private QueryPattern analyzeQueryPattern(WorkloadProfile profile) {
        List<QueryType> queryTypes = profile.getQueryTypes();
        
        boolean hasRangeQuery = queryTypes.contains(QueryType.RANGE);
        boolean hasPointQuery = queryTypes.contains(QueryType.POINT);
        boolean hasFullScan = queryTypes.contains(QueryType.FULL_SCAN);
        boolean hasOrderBy = queryTypes.contains(QueryType.ORDER_BY);
        
        return QueryPattern.builder()
            .rangeQuery(hasRangeQuery)
            .pointQuery(hasPointQuery)
            .fullScan(hasFullScan)
            .orderBy(hasOrderBy)
            .build();
    }
    
    /**
     * 生成存储引擎推荐
     */
    private EngineRecommendation generateRecommendation(
            double writeRatio, double readRatio, 
            QueryPattern queryPattern, DataCharacteristics dataChars) {
        
        EngineRecommendationBuilder builder = EngineRecommendation.builder();
        
        // 场景1：写密集型应用
        if (writeRatio > 0.7) {
            builder.primaryEngine("MyRocks")
                   .reason("写比例高(" + (int)(writeRatio * 100) + "%)，LSM-Tree结构更适合")
                   .confidence(0.9);
            
            if (queryPattern.isRangeQuery()) {
                builder.alternativeEngine("InnoDB")
                       .alternativeReason("需要范围查询，B+Tree也有优势");
            }
        }
        // 场景2：读密集型应用
        else if (readRatio > 0.8) {
            builder.primaryEngine("InnoDB")
                   .reason("读比例高(" + (int)(readRatio * 100) + "%)，B+Tree查询性能更稳定")
                   .confidence(0.85);
            
            if (writeRatio < 0.1) {
                builder.alternativeEngine("Memory")
                       .alternativeReason("写比例极低，可考虑内存引擎");
            }
        }
        // 场景3：读写均衡
        else {
            builder.primaryEngine("InnoDB")
                   .reason("读写比例均衡，B+Tree提供稳定的综合性能")
                   .confidence(0.8);
            
            if (writeRatio > 0.4) {
                builder.alternativeEngine("MyRocks")
                       .alternativeReason("写入比例较高，LSM-Tree可作为备选");
            }
        }
        
        return builder.build();
    }
    
    /**
     * 性能对比测试
     */
    public void performanceComparison() {
        log.info("=== 存储引擎性能对比测试 ===");
        
        // 测试场景：不同读写比例下的性能表现
        double[] writeRatios = {0.1, 0.3, 0.5, 0.7, 0.9};
        int totalOperations = 100000;
        
        for (double writeRatio : writeRatios) {
            log.info("测试写比例: {}%", (int)(writeRatio * 100));
            
            // 测试InnoDB性能
            EnginePerformance innodbPerf = testEnginePerformance(
                "InnoDB", writeRatio, totalOperations
            );
            
            // 测试MyRocks性能
            EnginePerformance myrocksPerf = testEnginePerformance(
                "MyRocks", writeRatio, totalOperations
            );
            
            // 输出对比结果
            logPerformanceComparison(innodbPerf, myrocksPerf);
        }
    }
    
    private EnginePerformance testEnginePerformance(
            String engineName, double writeRatio, int totalOperations) {
        
        int writeCount = (int) (totalOperations * writeRatio);
        int readCount = totalOperations - writeCount;
        
        long startTime = System.currentTimeMillis();
        
        // 模拟写入操作
        for (int i = 0; i < writeCount; i++) {
            // 模拟写入
        }
        
        // 模拟查询操作
        for (int i = 0; i < readCount; i++) {
            // 模拟查询
        }
        
        long totalTime = System.currentTimeMillis() - startTime;
        
        return EnginePerformance.builder()
            .engineName(engineName)
            .writeRatio(writeRatio)
            .totalOperations(totalOperations)
            .totalTime(totalTime)
            .throughput((totalOperations * 1000.0) / totalTime)
            .build();
    }
    
    private void logPerformanceComparison(EnginePerformance innodb, EnginePerformance myrocks) {
        double ratio = myrocks.getThroughput() / innodb.getThroughput();
        
        log.info("性能对比 - InnoDB: {} ops/s, MyRocks: {} ops/s, 比例: {:.2f}x",
            innodb.getThroughput(), myrocks.getThroughput(), ratio);
        
        if (ratio > 1.2) {
            log.info("  MyRocks性能优势明显");
        } else if (ratio < 0.8) {
            log.info("  InnoDB性能优势明显");
        } else {
            log.info("  两者性能相当");
        }
    }
}

索引架构最佳实践

索引设计原则

原则1：选择合适的数据结构

业务场景	推荐索引结构	典型应用	核心优势
高并发读写均衡	B+Tree	MySQL InnoDB、PostgreSQL	读写性能均衡，支持范围查询，事务支持完善
写多读少	LSM-Tree	Cassandra、RocksDB、LevelDB	写入性能极佳，压缩效率高，适合大数据量
内存数据库	哈希索引	Redis、Memcached	查询复杂度O(1)，内存访问速度快，实现简单
时序数据	LSM-Tree变种	InfluxDB、TimescaleDB	时间局部性好，压缩率高，适合时间范围查询
空间数据	R-Tree	PostGIS、MongoDB	支持空间范围查询，适合地理位置数据
文本搜索	倒排索引	Elasticsearch、Solr	支持全文检索，分词和相关性排序

原则2：合理设计索引字段

好的实践：

选择选择性高的字段
- 用户ID、订单号等唯一性字段
- 状态值、类型等区分度高的字段
- 避免对布尔值、性别等低选择性字段建索引
考虑查询模式
- 分析最常用的查询条件
- 考虑组合索引的顺序（最左前缀原则）
- 支持覆盖索引减少回表操作
控制索引数量
- 单表索引数量不超过5-7个
- 避免冗余索引
- 定期清理无用索引

不好的实践：

过度索引
- 对每个字段都建索引
- 索引数量超过字段数量
- 忽视索引维护成本
忽视索引顺序
- 组合索引字段顺序不合理
- 不满足最左前缀原则
- 索引字段顺序与查询条件不匹配

原则3：考虑维护成本

成本因素	具体影响	缓解策略
存储空间	索引通常比数据本身大20-50%	使用压缩索引，定期清理无用索引
写入性能	每次写入需要更新索引，延迟增加10-30%	批量写入，异步索引构建
内存使用	索引需要缓存在内存中，增加内存压力	选择性缓存，LRU淘汰策略
维护复杂度	需要定期维护索引，增加运维成本	自动化工具，监控告警机制

原则4：监控和优化

关键监控指标：

指标名称	计算公式	推荐阈值	处理建议
索引命中率	索引查询次数 / 总查询次数	> 95%	低于阈值时检查索引设计
索引选择率	DISTINCT值数量 / 总行数	> 10%	选择率过低考虑删除索引
索引大小比例	索引大小 / 数据大小	< 50%	比例过高考虑优化索引
写入放大系数	索引写入次数 / 数据写入次数	< 3	系数过高考虑减少索引

性能调优建议：

B+Tree索引优化：

调整填充因子（Fill Factor）
- 读写均衡：70-80%
- 写密集型：50-60%
- 读密集型：90-100%
优化节点大小
- 匹配磁盘页大小（通常4KB）
- 考虑CPU缓存行大小
- 平衡内存使用和I/O效率
预读和缓存优化
- 启用索引预读
- 调整缓冲池大小
- 使用压缩减少I/O

LSM-Tree索引优化：

MemTable大小调优
- 写密集型：较大MemTable（64-128MB）
- 读密集型：较小MemTable（16-32MB）
- 考虑内存限制
合并策略选择
- 大小分层合并：适合写密集型
- 层级合并：适合读密集型
- 时间窗口合并：适合时序数据
布隆过滤器配置
- 减少不必要的磁盘I/O
- 平衡内存使用和误判率
- 定期重建保持准确性

性能优化案例

案例1：电商系统索引优化

背景与挑战：

订单表数据量：1000万+记录
查询响应时间：5-10秒
并发查询：500+ QPS
主要查询：根据用户ID、时间范围、状态查询订单

问题分析：

只有主键索引，查询需要全表扫描
CPU和I/O使用率达到100%
用户体验差，订单查询超时

优化方案：

创建复合索引

CREATE INDEX idx_user_time_status ON orders(user_id, create_time, status);

创建覆盖索引

CREATE INDEX idx_status_time_cover ON orders(status, create_time)
INCLUDE (order_id, total_amount);

分区表设计

CREATE TABLE orders (
    order_id BIGINT PRIMARY KEY,
    user_id BIGINT,
    create_time DATETIME,
    status VARCHAR(20),
    total_amount DECIMAL(10,2)
) PARTITION BY RANGE (YEAR(create_time)) (
    PARTITION p2023 VALUES LESS THAN (2024),
    PARTITION p2024 VALUES LESS THAN (2025),
    PARTITION p2025 VALUES LESS THAN (2026)
);

读写分离架构
- 主库处理写入操作
- 从库处理查询操作
- 使用读写分离中间件

优化效果：

查询响应时间：从5-10秒降至100-200ms
系统吞吐量：提升5倍
资源使用率：CPU降至30%，I/O降至40%
用户体验：显著提升，查询超时问题消失

案例2：日志系统索引优化

背景与挑战：

日志写入量：10万条/秒
存储容量：50TB
查询模式：时间范围查询为主
数据保留期：30天

技术选型：

存储引擎：LSM-Tree（MyRocks）
索引策略：时间戳+日志级别复合索引
分区策略：按小时分区
压缩算法：LZ4

优化策略：

使用LSM-Tree提升写入性能
- 顺序写入避免随机I/O
- 内存缓冲区批量处理
- 支持高并发写入

创建时间戳索引支持范围查询

CREATE INDEX idx_timestamp_level ON logs(timestamp, log_level);

使用布隆过滤器减少磁盘I/O
- 配置布隆过滤器参数
- 减少不必要的SSTable查询
- 平衡内存使用和误判率
定期合并和清理过期数据
- 自动合并策略配置
- TTL机制清理过期数据
- 存储空间回收

效果对比：

写入性能：从5万条/秒提升到12万条/秒
存储成本：降低60%（压缩+LSM-Tree）
查询性能：时间范围查询<1秒
运维成本：自动化程度高，维护简单

案例3：金融系统索引优化

业务特点：

强一致性要求
高并发读写
复杂查询场景
监管合规要求

挑战分析：

交易流水表：每日1000万笔交易
账户表：高并发更新余额
风控查询：复杂的多表关联
报表查询：大数据量聚合分析

解决方案：

1. 交易流水表优化

-- 存储引擎：InnoDB（事务支持）
-- 索引设计：账户ID+交易时间复合索引
CREATE INDEX idx_account_time ON transactions(account_id, transaction_time);

-- 交易ID唯一索引
CREATE UNIQUE INDEX idx_transaction_id ON transactions(transaction_id);

-- 分区策略：按账户ID哈希分区
ALTER TABLE transactions PARTITION BY HASH(account_id) PARTITIONS 64;

2. 账户表优化

-- 存储引擎：InnoDB（行锁支持）
-- 主键索引：账户ID
-- 唯一索引：账户号码
CREATE UNIQUE INDEX idx_account_number ON accounts(account_number);

-- 优化策略：热点账户分离
-- 将高频操作的账户数据分离到独立表