
hive
忆山
从事大数据开发工作
1.高级大数据开发工程师spark、flink、kafka、hive、hbase等
2.搜索服务开发Elasticsearch
等相关大数据工作
展开
-
hive优化实战
这里从四个方面对 Hive 常用的一些性能优化进行了总结。 一 : 表设计层面优化 利用分区表优化 分区表 是在某一个或者几个维度上对数据进行分类存储,一个分区对应一个目录。如 果筛选条件里有分区字段,那么 Hive 只需要遍历对应分区目录下的文件即可,不需要 遍历全局数据,使得处理的数据量大大减少,从而提高查询效率。 当一个 Hive 表的查询大多数情况下,会根据某一个字段进行筛选时,那...原创 2020-03-30 10:29:50 · 289 阅读 · 0 评论 -
hive自定义udf函数实战
一、UDF相关概念 udf函数,用户自定义函数,可以直接在sql语句中计算的函数 优点: 允许实现模块化的程序设计、方便修改代码、增加函数 UDF的执行速度很快,通过缓存计划在语句重复执行时降低代码的编译开销,比存储方法的执行效率更高 可用于减少网络流量 UDF放入内存中,设计不当可能导致系统的崩溃,所以必须在必要的时候实施优化,对udf的优化是通过改写原来的udf代码实现,主要包括两种场...原创 2020-02-17 15:44:11 · 1417 阅读 · 0 评论 -
hive写入Elasticsearch实战与性能
一、写入ES的映射 add jar hdfs://****/user/hive/jar/elasticsearch-hadoop-6.6.1.jar; --注意jar包版本,不同elastic集群指定相应的版本jar包 --关闭Hive推测执行 SET hive.mapred.reduce.tasks.speculative.execution = false; SET mapreduce.m...原创 2020-02-11 15:25:44 · 1312 阅读 · 1 评论 -
hive sql练习一
背景 数仓很火的情况下,sql是bi'xu必须要会的,这也是面试了好几家大厂都碰壁的问题,所以写个专题练练sql。 一、建表 //1、学生信息表 hive> create table xcj_student (s_id string,s_name string,s_birth string,s_sex string) row format delimited fields termi...原创 2020-02-10 23:36:56 · 266 阅读 · 0 评论 -
hive sql练习二
1、有十万个淘宝店铺,每个顾客访问任意一个店铺时都会生成一条日志,访问日志存储表为visit,其中访问用户ID字段名称为uid,访问店铺的字段名称为store,请统计每个店铺的uv select store,count(distanct uid) as uv from visit group by store; 2、有一亿个用户,被存储在表User中,其中用户唯一字段Uid,用户年龄age和用...原创 2020-02-10 23:36:08 · 517 阅读 · 0 评论 -
hive的数据存储格式
hive支持hadoop中的TextFile、RCFile、SequenceFile、AVRO、ORC、Parquet格式 1、TextFile每一行都是一条记录,每行都以换行符\n结尾,数据不压缩,磁盘开销大,数据解析开销大,可以结合Gzip和Bzip2使用。这种方式,hive不会对数据切分,从而也不会对数据进行并行处理 2、SequenceFile是一种二进制文件,使用方便、可以分割、可以...原创 2020-02-06 09:30:21 · 295 阅读 · 0 评论