Hive与传统的数据库

本文对比了Hive与传统数据库的差异,包括Schema on Read与Schema on Write的概念,更新、事务和索引的处理方式。此外,还讨论了HiveQL与SQL的异同,并提到了其他SQL-on-Hadoop解决方案如Impala、Spark SQL等。

1. Hive vs. 传统的数据库

Hive与传统的关系型数据库有很多类似的地方,例如对SQL的支持。但是其基于HDFS与MapReduce的事实使得它与传统的数据库在很多方面有很大的不同,在一些特性的支持下也受到底层架构的限制,但是这些限制随着版本迭代正在不断被消除,使得Hive看起来越来越像传统的数据库。

1.1 Schema on Read vs. Schema on Write

在传统的数据库中,数据在写入时就受到表模式(schema)的约束,如果写入的数据不符合模式,则会被拒绝。这种设计被称为Schema on Write,因为数据在写入的时候被校验。

Hive则不同,在写入数据的时候不会对数据做验证,而是在读数据的时候做验证,这称为Schema on Read。

这两种方式有很多权衡的地方。读时模式在数据载入的时候非常快,因为不需要对数据进行读取-解析-序列化为数据库内部的格式。载入操作只是简单的文件拷贝和移动。读时模式也更加灵活,对数据使用目的或者分析方式不同的两个人,对模式的需求也可能是不一样。例如对于年份这样的字段,如果只是想统计每年的销售额,可能字符串就能够符合要求。但是如果想对年份做一些比较或者时间计算,则需要使用Date之类的数据类型。把模式的定义交给具体使用数据的人来完成,是有很大的灵活性的。

而写时模式的查询效率则更高,因为数据库可以针对字段创建索引或者压缩。缺点是载入数据到数据库中需要比较长的时间。另外有很多场景下,在写入数据的时候是不知道应该使用什么模式的,也不能针对性地创建索引。这种情况下,Hive是一个很好的选择。

1.2 更新、事务及索引

更新、事务、索引是关系型数据库中的核心内容,但是Hive一直没有过多地涉及这些方面。因为Hive是基于HDFS及MapReduce,全表扫描以常规方式进行,但是更新是通过将数据写入到新的表来实现的。对于有大量数据的数据仓库应用来说,这种方式工作得很好。

Hive可以通过INS

Hive是一个建立在Hadoop上的数据仓库工具,它可以用来进行数据摘要、查询分析。它提供了一种类SQL语言——HiveQL,通过这个语言可以将SQL语句转换成MapReduce任务来运行。Hive适用于处理大规模数据集,并且可以很好地Hadoop生态系统中的其他工具配合使用。传统的关系型数据库(如MySQL、Oracle等)相比,Hive有一些显著的区别: 1. 数据存储:传统数据库通常使用结构化的数据存储格式(如行列的表格形式),支持事务行级锁等复杂操作,而Hive主要存储在HDFS上,采用列式存储分桶等技术,适合存储大量静态数据。 2. 查询语言:传统数据库使用标准SQL或特定数据库支持的SQL方言进行数据操作,Hive则提供了一个兼容SQL的查询语言HiveQL,但它在执行效率一些SQL功能上可能有限制。 3. 性能优化:传统数据库对查询进行即时优化并执行,Hive则通过转换查询为MapReduce作业来延迟执行,这可能会导致在小数据集上性能不如传统数据库。 4. 数据处理能力:传统数据库适合进行OLTP(在线事务处理),强调快速、实时的事务处理,Hive则更适合OLAP(在线分析处理),擅长处理批量数据查询分析。 5. 可伸缩性:传统数据库一般有固定的存储计算能力,扩展性有限,而Hive可以Hadoop集群的规模一起扩展,支持数据量的线性增长。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值