大型数据仓库的存储设计

本文探讨了数据仓库快速增长的原因,包括历史数据的保留、详细数据收集和多样化的数据类型。随着数据量增加,数据使用率下降,提出了数据分类存储的策略,如将活跃数据、休眠数据和档案数据分别存储在不同性能的介质上。此外,根据数据访问模式,新数据存储在高性能介质,旧数据则迁移到低成本选项。最后,介绍了存档存储作为处理大量长期不使用数据的解决方案,以降低成本和提升查询效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据仓库快速的增长,导致数据仓库存储的数据量快速增加,而大型数据仓库通常具有几百TB,甚至到了PB级别。存储大量数据会增加管理的费用,并会延长查询的时间,需要根据数据的使用模式和访问模式来设计数据的存储。

一,数据仓库快速增长的原因

数据仓库是企业数据的基础设置,数据量快速增长的原因大致有三个:

1,数据仓库包含历史数据

历史数据是理解用户行为的绝佳数据,因为所有的客户都是依循习惯办事,通过用户的历史行为数据,可以预测出用户将来做什么。

2,数据仓库以最低粒度收集数据

为了使数据仓库能尽可能回答数据分析的所有问题,数据仓库必须收集非常细节的数据。数据一旦被聚合,就不能被向下分解,会失去很多信息。

3,数据仓库包含多种数据

数据仓库会收集多种类型的数据,是企业的数据中心,不仅数据源是多种多样的,而且数据的种类也是多种多样的。

由于数据仓库中的数据量在飞速增加,使用一种存储介质来存储介质,显然是不理想的,应该平衡数据使用和存储的成本,使用不同的存储介质来扩展数据仓库。

二,数据使用模式

当数据仓库只有50GB时,几乎所有的数据都被使用,随着数据仓库数据量的增长,实际使用数据的占比却在逐渐降低,也就是说,实际数据使用率在降低。
在大型数据仓库中,通常情况下,有一部分数据经常使用,也有一部分很少使用,但是大部分数据基本上不会被用到,把存储在数据仓库中的数据分为三类:频繁使用的数据(活跃数据)、不频繁使用的数据(休眠数据)和基本不会使用的数据(档案数据)。
为了降低数据存储的费用,通常情况下,活跃数据的占比最小,推荐把活跃数据存储到性能最好的硬盘中,休眠数据存储到性能较差的存储介质中,而把档案数据存储到性能最差的存储介质中,甚至可以把档案数据脱离数据仓库系统单独存储。

三,数据访问模式

数据仓库中的数据,对于数据分析师而言,数据越新,越有可能被使用;数据越旧,被访问的可能性越小。所以,数据仓库中的数据,存在着明确的访问模式,并不是随机的。

在存储数据时,通常把新的数据存储到性能较好的硬盘中,而把旧的存储到性能较差但是成本低廉的硬盘中,以降低数据存储的成本。

四,存档存储

数据仓库的维护工作,除了要对数据进行管理,还需要对数据进行分类存储。在企业数据中,那些极小可能性被用到的数据,不仅数量巨大,增加了管理的难度,而且影响系统的响应时间,降低了数据分析师的工作效率。为了降低存储的费用和查询的时延,需要以一种归档的方式来存储数据。
归档的数据,不是天生的,这些数据,可能曾经也是活跃的数据,只是随着时间的流逝,渐渐地不会再被使用,因此,需要通过一定的规则来定义归档数据。
归档的数据可以脱离数据仓库,转移到专门的归档数据仓库中,存储数据的媒介是速度较慢的、成本低廉的、并能长时间保存数据的海量存储设备中。这些数据虽然极小被用到,但是也是可以访问到的,只不过要查询到这些数据,需要更多的时间和耐心。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

悦光阴

你的鼓励是我创作的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值