- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 RDD的转换(transsformations)和行动(actions)算子
1.转换(transsformations)算子 1.1 基础转换算子(18个) map、flatMap、filter、distinct、mapPartitions、mapPartitionsWithIndex、union、intersection(交集运算)、subtract(差集运算)、coalesce、repartition、randomSplit、glom、zip、zipPartitions、zipWithIndex、zipWithUniqueid、sortBy 1.2 键值对转换算子(1.
2021-08-06 14:17:21
294
转载 解决hive小文件过多问题
解决hive小文件过多问题一、小文件产生原因1. 直接向表中插入数据2. 通过load方式加载数据3. 通过查询方式加载数据二、小文件过多产生的影响三、怎么解决小文件过多1、 使用 hive 自带的 concatenate 命令,自动合并小文件2、 调整参数减少Map数量2.1 设置map输入合并小文件的相关参数2.2 设置map输出和reduce输出进行合并的相关参数2.3 启用压缩3、 减少Reduce的数量4、 使用hadoop的archive将小文件归档 一、小文件产生原因 hive 中的小文件肯定
2021-05-13 17:03:15
1093
原创 hive窗口函数记录
hive窗口函数记录 一 、 排序 row_number, rank,dense_rank row_number(): 分组内,从1到n连续 rank(): 分组内,排序如下:1,2,2,3 dense_rank():分组内,排序如下:1,2,2,4 准备数据: create table personas_test_2 as select "cookid_01" AS cookid , "2017-09-18" as create_time ,1 as pv union all select "
2021-03-26 17:45:54
207
centos7-oracle-rpm.zip
2019-10-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅