大型数据仓库的存储设计

最新推荐文章于 2025-02-25 13:36:38 发布

悦光阴

最新推荐文章于 2025-02-25 13:36:38 发布

阅读量725

点赞数

分类专栏： SQL Server数据库文章标签：数据仓库

本文链接：https://blog.youkuaiyun.com/upluck/article/details/117164107

版权

SQL Server数据库专栏收录该内容

4 篇文章

订阅专栏

本文探讨了数据仓库快速增长的原因，包括历史数据的保留、详细数据收集和多样化的数据类型。随着数据量增加，数据使用率下降，提出了数据分类存储的策略，如将活跃数据、休眠数据和档案数据分别存储在不同性能的介质上。此外，根据数据访问模式，新数据存储在高性能介质，旧数据则迁移到低成本选项。最后，介绍了存档存储作为处理大量长期不使用数据的解决方案，以降低成本和提升查询效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据仓库快速的增长，导致数据仓库存储的数据量快速增加，而大型数据仓库通常具有几百TB，甚至到了PB级别。存储大量数据会增加管理的费用，并会延长查询的时间，需要根据数据的使用模式和访问模式来设计数据的存储。

一，数据仓库快速增长的原因

数据仓库是企业数据的基础设置，数据量快速增长的原因大致有三个：

1，数据仓库包含历史数据

历史数据是理解用户行为的绝佳数据，因为所有的客户都是依循习惯办事，通过用户的历史行为数据，可以预测出用户将来做什么。

2，数据仓库以最低粒度收集数据

为了使数据仓库能尽可能回答数据分析的所有问题，数据仓库必须收集非常细节的数据。数据一旦被聚合，就不能被向下分解，会失去很多信息。

3，数据仓库包含多种数据

数据仓库会收集多种类型的数据，是企业的数据中心，不仅数据源是多种多样的，而且数据的种类也是多种多样的。

由于数据仓库中的数据量在飞速增加，使用一种存储介质来存储介质，显然是不理想的，应该平衡数据使用和存储的成本，使用不同的存储介质来扩展数据仓库。

二，数据使用模式

当数据仓库只有50GB时，几乎所有的数据都被使用，随着数据仓库数据量的增长，实际使用数据的占比却在逐渐降低，也就是说，实际数据使用率在降低。
在大型数据仓库中，通常情况下，有一部分数据经常使用，也有一部分很少使用，但是大部分数据基本上不会被用到，把存储在数据仓库中的数据分为三类：频繁使用的数据（活跃数据）、不频繁使用的数据（休眠数据）和基本不会使用的数据（档案数据）。
为了降低数据存储的费用，通常情况下，活跃数据的占比最小，推荐把活跃数据存储到性能最好的硬盘中，休眠数据存储到性能较差的存储介质中，而把档案数据存储到性能最差的存储介质中，甚至可以把档案数据脱离数据仓库系统单独存储。

三，数据访问模式

数据仓库中的数据，对于数据分析师而言，数据越新，越有可能被使用；数据越旧，被访问的可能性越小。所以，数据仓库中的数据，存在着明确的访问模式，并不是随机的。

在存储数据时，通常把新的数据存储到性能较好的硬盘中，而把旧的存储到性能较差但是成本低廉的硬盘中，以降低数据存储的成本。

四，存档存储

数据仓库的维护工作，除了要对数据进行管理，还需要对数据进行分类存储。在企业数据中，那些极小可能性被用到的数据，不仅数量巨大，增加了管理的难度，而且影响系统的响应时间，降低了数据分析师的工作效率。为了降低存储的费用和查询的时延，需要以一种归档的方式来存储数据。
归档的数据，不是天生的，这些数据，可能曾经也是活跃的数据，只是随着时间的流逝，渐渐地不会再被使用，因此，需要通过一定的规则来定义归档数据。
归档的数据可以脱离数据仓库，转移到专门的归档数据仓库中，存储数据的媒介是速度较慢的、成本低廉的、并能长时间保存数据的海量存储设备中。这些数据虽然极小被用到，但是也是可以访问到的，只不过要查询到这些数据，需要更多的时间和耐心。