PL/Proxy + PostgreSQL实现在线大数据存储存储与查询

最新推荐文章于 2025-07-22 11:14:06 发布

数据旅途

最新推荐文章于 2025-07-22 11:14:06 发布

阅读量2.1k

点赞数 1

CC 4.0 BY-SA版权

文章标签：大数据存储数据库 PLProxy 分布式分表

本文链接：https://blog.youkuaiyun.com/pg_grant/article/details/40556969

面对18+TB的大数据存储需求，通过PostgreSQL配合PL/Proxy构建分布式数据库架构，结合时间序列的分区策略，以及利用Index-Only-Scan提升查询性能，确保在线查询时间小于1秒。尽管此方案适用于中小型公司，但实施过程中还需要考虑一致性哈希、高可用性和多级分区等细节问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题：

给你4台中等配置服务器（例如AWS C3.8xlarge，磁盘为GPSSD），每天会生成10+GB的数据（每条纪录都有一个时间戳），目前已有5年的数据，也就是说已有18+TB数据。如何使用PostgreSQL进行存储，并且保证在线查询时间<1s （这里面会有很多逻辑及其不同层次的聚合）.

方案：

显然，用单个PostgreSQL已经远远不能满足。当然，如果公司高富帅的话，可以直接上支持大数据的分布式数据库，如Vertica，Greenplum等。但是，对于中小型公司，特别是创业公司，免费软件是首选，经过一些调研，如果基于PostgreSQL的话，那么配合使用PL/Proxy是一个非常不错的选择。以下是PL/Proxy和PostgreSQL非常经典的架构（下一片文章我会讲下如何使用得更加完美，例如使用一致性哈希管理节点，如何提供HA，等等。

那么，是不是使用了上述方案就Okay了。答案是否定的。这只是万里长城的第一步。考虑到这些数据是有时序，那么PostgreSQL Partition在这里无疑是一个好方案，在实际的应用中，一级Partition是远远不够的，往往是多级Partition。比如说我们有一个表t（c1, c2, c3, c4），那么我们第一级Partition可以是C1，然后接下来按照C2进行Partition，接着还是按照C3。使用Partition的好处是可以控制每一个字表的大小，而且后续增加的数据不会影响前面已插入数据的性能（当然取决于你Partition的力度），这些在接下来的文章中会详细介绍。

那么，是否Partition完了之后就Okay了？答案是否定，如何进行快速的查询?答案是尽可能利用PostgreSQL 9.3引入的新功能－Index-Only-Scan。当然，这样会增加存储，因为你所访问的每一个字段都需要出现在索引当中。

从我的调研，测试和实际生产环境来看，如果使用上述方案，性能将不会是问题。当然，具体问题还需要具体分析！我将在接下来的文章中和大家分享如何实现这些解决方案。