hive的面试

本文详细介绍了Hive的基本架构,包括元数据、客户端、Driver及Hadoop组件。强调了Hive对大小写不敏感,适合读多写少的数据仓库应用,并指出其不支持索引,但可通过分区表提高查询效率。讨论了数据类型、数据格式转换、内外部表的区别,以及建表和数据导入的方法。此外,还分享了Hive的优化技巧,如开启并行运算、压缩存储、分区表策略、GROUP BY语句优化和使用Tez引擎提升性能。最后提到了窗口函数的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

hive的基本架构
包括元数据metastore 、client 、driver 、hadoop(hdfs存储+mr运算)
其中driver包括四部分:解析器 、编译器 、优化器、 执行器
如下图
在这里插入图片描述
hive中注意事项
(1)hive 中对大小写不敏感
(2)Hive是针对数据仓库应用设计的,而数据仓库的内容是读多写少的。因此,Hive中不建议对数据的改写,所有的数据都是在加载的时候确定好的,
要修改也是直接覆盖★★
(3)hive中没有索引,查询的时候需要全表扫描,引入了分区表加快查询速度
(4)hive底层也是mr,运算也有延迟 不能做实时计算

hive中数据类型
和java 数据类型很相似,但是新增了timestamp 时间戳格式
字符串是string 不是varchar
在这里插入图片描述
hive的数据类型和mysql数据类型基本一致(除了字符串类型)★★

hive中数据格式转换
类似于Java的类型转换,自动向上推断
即任何整数类型都可以隐式地转换为一个范围更广的类型
也可以使用cast 进行转换,转换失败返回true
CAST(‘1’ AS INT)将把字符串’1’ 转换成整数1;如果强制类型转换失败,如执行CAST(‘X’ AS INT),表达式返回空值 NULL。

外部表和内部表区别
外部表表数据不由hive管理
内部表数据有hive管理
删除外部表,数据不会删除
删除

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值