【解决方案】处理大数据量（百万、千万、亿级别）的通用方案

最新推荐文章于 2025-11-09 01:53:16 发布

原创最新推荐文章于 2025-11-09 01:53:16 发布 · 置顶 · 2.9k 阅读

CC 4.0 BY-SA版权

本文为【tanpenggood】原创文章，允许转载，但转载必须注明出处并附带首发链接！

10 篇文章

订阅专栏

talk is cheap, show me the scheme.

以处理2020年~2021年数据为例。

利用数据的时序性和自增ID处理大数据量（百万、千万、亿级别）的通用方案。

该方案无论对于单节点还是分布式数据库均适用，作者的实践就是基于阿里云DRDS上处理亿级数据。

单节点的数据库，我们可以认为create_time与自增ID是正相关的。
即：10001 >= id <= 40000之间的所有数据肯定都是2021-07-07的。
而在分布式数据库中，自增ID与create_time的关系可能出现如下情况：

database	自增ID段	id	create_time
user_db1	10001~20000	10001	2021-07-07 12:00:00
user_db1	10001~20000	16666	2021-07-09 12:00:00
user_db2	20001~30000	20001	2021-07-07 12:00:00
user_db2	20001~30000	26666	2021-07-08 12:00:00
user_db3	30001~40000	30001	2021-07-07 12:00:00
user_db3	30001~40000	36666	2021-07-07 13:00:00