Hive与传统的数据库

最新推荐文章于 2024-07-11 08:55:16 发布

原创

最新推荐文章于 2024-07-11 08:55:16 发布 · 2.5k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hive #schema

本文对比了Hive与传统数据库的差异，包括Schema on Read与Schema on Write的概念，更新、事务和索引的处理方式。此外，还讨论了HiveQL与SQL的异同，并提到了其他SQL-on-Hadoop解决方案如Impala、Spark SQL等。

1. Hive vs. 传统的数据库

Hive与传统的关系型数据库有很多类似的地方，例如对SQL的支持。但是其基于HDFS与MapReduce的事实使得它与传统的数据库在很多方面有很大的不同，在一些特性的支持下也受到底层架构的限制，但是这些限制随着版本迭代正在不断被消除，使得Hive看起来越来越像传统的数据库。

1.1 Schema on Read vs. Schema on Write

在传统的数据库中，数据在写入时就受到表模式（schema）的约束，如果写入的数据不符合模式，则会被拒绝。这种设计被称为Schema on Write，因为数据在写入的时候被校验。

Hive则不同，在写入数据的时候不会对数据做验证，而是在读数据的时候做验证，这称为Schema on Read。

这两种方式有很多权衡的地方。读时模式在数据载入的时候非常快，因为不需要对数据进行读取-解析-序列化为数据库内部的格式。载入操作只是简单的文件拷贝和移动。读时模式也更加灵活，对数据使用目的或者分析方式不同的两个人，对模式的需求也可能是不一样。例如对于年份这样的字段，如果只是想统计每年的销售额，可能字符串就能够符合要求。但是如果想对年份做一些比较或者时间计算，则需要使用Date之类的数据类型。把模式的定义交给具体使用数据的人来完成，是有很大的灵活性的。

而写时模式的查询效率则更高，因为数据库可以针对字段创建索引或者压缩。缺点是载入数据到数据库中需要比较长的时间。另外有很多场景下，在写入数据的时候是不知道应该使用什么模式的，也不能针对性地创建索引。这种情况下，Hive是一个很好的选择。