qq_42637913-优快云博客

原创 Hive函数等

1.GROUP BY GROUP BY语句通常会和聚合函数一起使用，按照一个或者多个列队结果进行分组，然后对每个组执行聚合操作。 2.having与where不同点（1）where后面不能写分组聚合函数，而having后面可以使用分组聚合函数。（2）having只用于group by分组统计语句。 ---（1）求每个部门的平均薪水大于2000的部门 select deptno,avg(sal) avg_sal from emp group by deptno havi...

2021-11-04 21:56:12 751

原创 shell脚本总结

Centos默认的解析器是bash [hej@hadoop101 bin]$ echo $SHELL /bin/bash 1）脚本格式脚本以#!/bin/bash开头（指定解析器） helloworld.sh #!bin/bash echo "helloword" 1）常用系统变量 $HOME、$PWD、$SHELL、$USER等 [hej@hadoop102 data]$ echo $HOME /home/hej [hej@hadoop102 data]$ echo $PWD /hom

2020-12-07 21:34:11 169

原创 RDD五大特性

RDD五大特性 1.显示标记数据存储在哪个分区 2.将这些分区数据进行逻辑计算 3.接着产生新的RDD，旧的到新的；需要依赖 4.接着还需控制（k，v）的输入流例：在进行逻辑计算时，会有shuffle，这是进行混合运算，需要变换分区，可能会有多的分区转换一个相对少的分区，这时就需要控制分区的数据流向 5.假如计算逻辑不在同一个服务器上，这时移动数据，不如移动计算，相当于一种调优手段 ...

2020-12-01 17:12:49 260

原创 # 大数据技术之Hadoop(MapReduce)

# Hadoop(MapReduce) 1.MapReduce 是一个分布式运算程序的编程框架 2.优点： MapReduce 易于编程，良好的扩展性，高容错性，适合PB级以上海量数据的离线处理 3.缺点：不擅长实时计算，不擅长流式计算， 1）不擅长DAG（有向无环图）计算流式计算的输入数据是动态的，而MapReduce的输入数据集是静态的，不能动态变化。 2）不擅长DAG（有向无环图）计算多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。 ...

2020-08-22 21:27:53 669

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人