大数据得Hive面试题

最新推荐文章于 2024-10-28 18:45:19 发布

ky75249

最新推荐文章于 2024-10-28 18:45:19 发布

阅读量315

点赞数

分类专栏：大数据文章标签： hive 大数据 mysql

本文链接：https://blog.youkuaiyun.com/ky75249/article/details/128300432

版权

Hive和数据库除了拥有类似的查询语言，再无类似之处

数据存储位置
- Hive存储在HDFS上，数据库将数据保存在块设备或者本地文件系统中
数据更新
- Hive默认不支持update，delete操作，需要开始事务配置。一般场景不建议使用跟新。mysql支持更新删除操作。如果在hive中需要update。可以insert into 新表 select 字段1，字段2，if（更新条件，返回，否则返回）from 旧表
执行延迟
- Hive执行延迟较高，数据库的执行延迟较低。这个是有条件的，在数据规模较小时，在数据规模大到超过数据库的处理能力的时候，Hive的并行计算显然能体现出优势。
数据规模
- Hive支持很大规模的数据计算，数据库可以支持的数据规模较小。
SQL语法区别： 1 hive不支持where后面跟子查询。 2 hive支持建表分区操作，mysql不支持。 3 group by。hive中sql，select 中的维度字段，必须出现在group by 后面。mysql语法可以不用。省份，城市，确诊病例 select pro,city,sum(quezhen) s from t group by pro,city 4 sort by,distribute by,group by 5 mapjoin ,mysql没有。

内部表和外部表的区别在于元数据和原始数据

在生产环境中order by用的较少，容易导致OOM

在生产环境中sort by+distribute by用的多

order by：全局排序，只有一个reduce
sort by：分区内有序
distribute by：类似于MR中partition，进行分区，结合sort by使用
cluster by：当distribute by和sort by字段相同的时候，可以使用cluster by方式。cluster by除了具有distribute by的功能外还兼具了sort by的功能。但是排序只能是升序排序，不能指定排序规则为ASC或者DESC。

在项目中是否自定义过UDF、UDTF函数，以及用他们处理了什么问题，及自定义步骤？
- 用UDF函数解析公共字段，用UDTF函数解析事件字段
- 自定义UDF：继承UDF，重写evaluate方法
- 自定义UDTF：继承自GenericUDTF，重写3个方法：initialize（自定义输出的列名和类型），process（将结果返回forward(result)），close
为什么要定义UDF、UDTF？
- 因为自定义函数，可以自己埋点Log打印日志，出错或者数据异常，方便调试
- 有些需求SQL无法直接处理，可以使用代码辅助解决