为什么你的 MySQL 存不下海量文本？聊聊 Cassandra 的正确打开方式

原创于 2025-12-17 18:52:30 发布 · 496 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #开发语言 #后端 #面试

JavaWeb 专栏收录该内容

16 篇文章

订阅专栏

在这里插入图片描述

在做技术选型时，我们常会遇到这样一个棘手的问题：海量的短文本数据（如聊天记录、日志、评论等）该存哪里？

1. 为什么 MySQL 不是最佳选择？

对于访问量较小的个人博客或内部系统，MySQL 确实是“万金油”。但当你的产品用户量达到千万甚至亿级（比如小红书、微博）时，MySQL 的瓶颈就会暴露无遗。

众所周知，MySQL（特别是 InnoDB 引擎）是为关系型数据设计的。

行存储机制：InnoDB 按行存储数据，默认页大小为 16KB。如果一行文本太长，会发生“行溢出”，数据被迫存到其他页中，导致读取一条数据需要多次磁盘 I/O。
空间浪费：由于页大小固定，变长的文本数据容易导致页填充率低，产生大量磁盘碎片。
索引失效：对大文本字段建索引效率极低，通常只能索引前缀，无法支持高效的全文检索。
事务负担：InnoDB 强悍的 ACID 事务机制，在面对海量文本的高频写入时，反而成了沉重的负担（Redo Log/Undo Log 开销巨大）。

结论很明显：在高性能、海量文本写入的场景下，关系型数据库往往力不从心。

2. NoSQL 选型：谁才是短文本之王？

既然 RDBMS 不行，我们自然把目光转向 NoSQL。市面上主流的方案主要有以下几类：

A：内存型 KV（如 Redis）

Redis 确实快，基于内存的读写性能无敌，且支持丰富的数据结构（String, Hash, Set等）。

优点：极速读写，适合实时计数（INCR/DECR）、排行榜、热点缓存。
硬伤：贵！内存比磁盘贵太多了，把海量历史文本全塞内存里，老板可能会疯。而且持久化（RDB/AOF）在海量数据下也有性能抖动。

B：文档数据库（如 MongoDB）

MongoDB 也是个不错的选择，Schema-free，支持 JSON/BSON，开发灵活。

优点：查询功能强大，索引丰富，适合半结构化数据。
适用：内容管理系统、日志分析。

C：分布式 KV 存储（如 Apache Cassandra）

如果你追求极致的写入性能、高可用以及低成本（磁盘存储），那么基于 LSM-Tree 或者类似架构的系统是首选。
这里我们要隆重介绍的主角是 —— Apache Cassandra。

3. 为什么选择 Cassandra？

Apache Cassandra 是 Facebook 开源的一款分布式 NoSQL 数据库，后来成为了 Apache 顶级项目。它结合了 Google Bigtable 的数据模型和 Amazon Dynamo 的分布式架构。

它的核心优势简直就是为“海量写入”量身定做的：

无中心化架构（Decentralized）：集群里没有主从之分，所有节点都是平等的（Peer-to-Peer）。这意味着没有单点故障，挂掉任何一个节点都不影响系统运行。
写吞吐量极高：基于 LSM-Tree 结构，将随机写转化为顺序写，写入性能极其强悍。
线性扩展：容量不够？加机器就行，性能随节点数线性增长。
多地容灾：天生支持跨数据中心复制，数据可以自动同步到异地机房。

总结一下选型逻辑：

如果不差钱且数据量小，选 Redis。
如果查询复杂且文档结构多变，选 MongoDB。
如果数据量巨大、写入并发极高、且对成本敏感（用磁盘），Cassandra 是不二之选。

4. 实战：使用 Docker 快速部署 Cassandra

光说不练假把式，下面我们用 Docker 快速把 Cassandra 跑起来。

第一步：拉取镜像

打开终端，下载官方最新镜像：

docker pull cassandra:latest

在这里插入图片描述

下载完成后，检查一下镜像是否就位：

docker images

在这里插入图片描述

第二步：准备数据挂载目录

为了防止容器重启后数据丢失，我们需要在宿主机创建一个目录来存放数据。
比如在 E:/docker 下创建一个 cassandra 目录：

第三步：启动容器

执行以下命令启动服务：

docker run --name cassandra -d -p 9042:9042 -v /d/soft/DevelopmentTool/docker/cassandra/data:/var/lib/cassandra cassandra:latest

参数详解：

--name cassandra: 给容器起个名字，方便管理。
-d: 后台静默运行。
-p 9042:9042: 端口映射。9042 是 Cassandra 的默认服务端口（CQL 端口）。
-v ...:/var/lib/cassandra: 核心配置！把宿主机的目录挂载到容器内的数据目录，确保持久化。

检查容器状态：

docker ps

在这里插入图片描述

第四步：进入 CQL 命令行

Cassandra 自带了一个类似 SQL 的交互工具，叫 cqlsh (Cassandra Query Language Shell)。

进入容器内部：

docker exec -it cassandra /bin/sh

然后启动客户端：

cqlsh
# 或者指定 IP 和端口
cqlsh 127.0.0.1 9042

在这里插入图片描述

进入 cqlsh 后，你就可以像写 SQL 一样去创建 Keyspace（类似 Database）、创建 Table 和查询数据了。

小结

Cassandra 作为一个老牌的分布式数据库，在处理 Write-Heavy（重写入）场景下依然是王者级别的存在。希望这篇入门指南能帮你打开 NoSQL 的新世界大门。