PL/Proxy + PostgreSQL实现在线大数据存储存储与查询

面对18+TB的大数据存储需求,通过PostgreSQL配合PL/Proxy构建分布式数据库架构,结合时间序列的分区策略,以及利用Index-Only-Scan提升查询性能,确保在线查询时间小于1秒。尽管此方案适用于中小型公司,但实施过程中还需要考虑一致性哈希、高可用性和多级分区等细节问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问题:

给你4台中等配置服务器(例如AWS C3.8xlarge,磁盘为GPSSD),每天会生成10+GB的数据(每条纪录都有一个时间戳),目前已有5年的数据,也就是说已有18+TB数据。如何使用PostgreSQL进行存储,并且保证在线查询时间<1s (这里面会有很多逻辑及其不同层次的聚合).


方案:

显然,用单个PostgreSQL已经远远不能满足。当然,如果公司高富帅的话,可以直接上支持大数据的分布式数据库,如Vertica,Greenplum等。但是,对于中小型公司,特别是创业公司,免费软件是首选,经过一些调研,如果基于PostgreSQL的话,那么配合使用PL/Proxy是一个非常不错的选择。以下是PL/Proxy和PostgreSQL非常经典的架构(下一片文章我会讲下如何使用得更加完美,例如使用一致性哈希管理节点,如何提供HA,等等。


那么,是不是使用了上述方案就Okay了。答案是否定的。这只是万里长城的第一步。考虑到这些数据是有时序,那么PostgreSQL Partition在这里无疑是一个好方案,在实际的应用中,一级Partition是远远不够的,往往是多级Partition。比如说我们有一个表t(c1, c2, c3, c4),那么我们第一级Partition可以是C1,然后接下来按照C2进行Partition,接着还是按照C3。使用Partition的好处是可以控制每一个字表的大小,而且后续增加的数据不会影响前面已插入数据的性能(当然取决于你Partition的力度),这些在接下来的文章中会详细介绍。


那么,是否Partition完了之后就Okay了?答案是否定,如何进行快速的查询?答案是尽可能利用PostgreSQL 9.3引入的新功能-Index-Only-Scan。当然,这样会增加存储,因为你所访问的每一个字段都需要出现在索引当中。


从我的调研,测试和实际生产环境来看,如果使用上述方案,性能将不会是问题。当然,具体问题还需要具体分析!我将在接下来的文章中和大家分享如何实现这些解决方案。




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值