- 博客(4)
- 收藏
- 关注
原创 Hive函数等
1.GROUP BY GROUP BY语句通常会和聚合函数一起使用,按照一个或者多个列队结果进行分组,然后对每个组执行聚合操作。 2.having与where不同点 (1)where后面不能写分组聚合函数,而having后面可以使用分组聚合函数。 (2)having只用于group by分组统计语句。 ---(1)求每个部门的平均薪水大于2000的部门 select deptno,avg(sal) avg_sal from emp group by deptno havi...
2021-11-04 21:56:12
720
原创 shell脚本总结
Centos默认的解析器是bash [hej@hadoop101 bin]$ echo $SHELL /bin/bash 1)脚本格式 脚本以#!/bin/bash开头(指定解析器) helloworld.sh #!bin/bash echo "helloword" 1)常用系统变量 $HOME、$PWD、$SHELL、$USER等 [hej@hadoop102 data]$ echo $HOME /home/hej [hej@hadoop102 data]$ echo $PWD /hom
2020-12-07 21:34:11
138
原创 RDD五大特性
RDD五大特性 1.显示标记数据存储在哪个分区 2.将这些分区数据进行逻辑计算 3.接着产生新的RDD,旧的到新的;需要依赖 4.接着还需控制(k,v)的输入流 例:在进行逻辑计算时,会有shuffle,这是进行混合运算,需要变换分区,可能会有多的分区转换一个相对少的分区,这时就需要控制分区的数据流向 5.假如计算逻辑不在同一个服务器上,这时移动数据,不如移动计算,相当于一种调优手段 ...
2020-12-01 17:12:49
230
原创 # 大数据技术之Hadoop(MapReduce)
# Hadoop(MapReduce) 1.MapReduce 是一个分布式运算程序的编程框架 2.优点: MapReduce 易于编程,良好的扩展性,高容错性,适合PB级以上海量数据的离线处理 3.缺点: 不擅长实时计算,不擅长流式计算, 1)不擅长DAG(有向无环图)计算 流式计算的输入数据是动态的,而MapReduce的输入数据集是静态的,不能动态变化。 2)不擅长DAG(有向无环图)计算 多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出。 ...
2020-08-22 21:27:53
618
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人