- 博客(6)
- 收藏
- 关注
转载 hive数据倾斜
hive数据倾斜:基本可以理解为hive在处理数据时候,由于数据分布不均匀导致处理数据处理时间过长。 注释:想要详细了解的朋友建议先去看看mapreduce的运行原理 hive在处理数据时候,map端将hdfs上数据处理完会以<k ,v>的格式传给reduce端,由于可能某一部分的k值可能特别的多,某些特别少,导致某一部分reduce处理数据时间特别长,从而产生数据倾斜。 1数据倾斜的...
2019-05-10 17:35:54
237
原创 hive的内嵌函数
注:以下是本人个人总结的,常用的一些hive的内嵌函数,可能有不足的,欢迎补充。 1.聚集函数 sum() --取字段数值的汇总 max() --取字段的最大值 min() --取字段的最小值 avg() --取字段数值的所有平均值 count() --统计字段的总个数 注:一般聚集函数会和分组函数(group by)一起使用,而且使用分组函数后,查询 的字段也只能出现分组字段和聚集函数。 2....
2019-05-08 10:49:43
1041
原创 liunx中执行数学运算
1.expr命令 expr命令使用方法是直接在命令后面接数学表达式就可以了 expr 1 + 1 加法 expr 2 / 1 取商 expr 2 % 1 取余数 expr 2 * 1 取乘积 \是转义符意思 注意:expr后面接的表达式之间必须是有间隔至少一个空格,否则会报错 2.$[ 数学表达式 ] $[数学表达式]是目前我们比较常用的一种计算方式,日常写shell程序中我们会将计算结果...
2019-04-19 11:07:49
298
原创 linux中的tar命令
tar命令是目前在linux和Unix上最受欢迎的归档工具 以下介绍几个常用的tar命令的功能 功能 描述 -c 创建一个新的归档文件 -r 追加到已有的tar文件尾部 -t 列出tar的归档的文件名 -f 将结果归档到指定目录 -v 处理文件时显示 -p 保留归档前的所有权限 -x 将归档文件提取出来 -z 将输出文件以gzip格式进行压缩 一般我...
2019-04-17 14:54:05
240
原创 linux操作日常命令
1.查看使用空间大小的 df -h --显示磁盘的使用情况并按照常见格式显示大小 du --显示指定目录的使用情况 -c --将所有的汇总成一个文件显示 -h --按照我们易懂的方式显示(例如k,M,G) -s --按照每一个输出的总计 2.显示文件 cat -n --显示全部文件并给每行加上行号(计入空白行) cat -b --显示全部文件但只给有内容的行加上行号 more +n...
2019-04-17 14:01:43
179
原创 hive建表及表操作
HIVE 建表及对表基本操作 建表的三种形式 1.直接建表 create [external] table [if not exists] tab_name ( row_1 type, row_2 type ) partition by (row_3 type,type_4 type ) row format delimited fields terminated by ’ a’ sto...
2019-04-15 16:22:06
1230
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅