数据仓库架构中的压缩技术与实验分析
1. 引言
数据库领域中,关系模型为数据库系统奠定了坚实基础,成为在线事务处理(OLTP)的主流标准。然而,在线分析处理(OLAP)的需求与 OLTP 截然不同。数据仓库作为集成数据库,整合了来自不同异构信息源的数据,而 OLAP 应用需要在多个维度进行聚合操作。多维聚合过程复杂,为实现实时访问,常采用物化视图,但其会占用大量存储空间。即便有研究者提出选择部分子集进行物化的技术,但在存在维度层次结构时,存储需求依然很高。因此,需要新一代数据库管理系统(DBMS)来大幅提升性能。
压缩技术在 OLTP 数据库中的应用有限,在 OLAP 环境中的应用也尚不成熟,但通过位索引压缩已在部分系统中得到应用。数据压缩在数据库架构中具有广泛优势,能加快处理速度、提高 I/O 效率和通信性能。在高性能的主内存数据库中,常见的数据表示方法是将域值表示为字符串序列,元组用固定长度的指针或令牌引用相应的域值,不过这种方法会使每个域值由固定长度的指针或令牌表示。另一种策略是为每个域值存储固定长度的参考编号。尽管对内存驻留数据库有大量研究,但当前大多数 DBMS 仍基于磁盘驻留数据。在存储紧凑性和存储操作效率与解令牌化的软件复杂性和处理开销之间需要进行权衡。常见的压缩技术如 Huffman 或 LZW 编码,不适合数据库处理,因为数据库需要对压缩数据进行关系操作和随机访问表的行。
2. 数据仓库中压缩技术的应用
数据仓库中有四个阶段可以应用压缩技术:
- 信息源到数据仓库的传输 :这是一种预先处理的方法,编码/解码过程对时间要求不高。压缩数据占用更少带宽,能更快地通过通信网络传输,从而便于数据仓库的
超级会员免费看
订阅专栏 解锁全文
883

被折叠的 条评论
为什么被折叠?



