
hadoop
文章平均质量分 58
DI O
这个作者很懒,什么都没留下…
展开
-
presto-----grouping(判断分组字段)
grouping判断分组函数 groupinggroupinggrouping(判断分组字段): 主要是用于判断结果是否按照某个或某几个字段的分组操作grouping 返回一个转换为十进制数字的二进制数值集合,指示分组中存在哪些列。 它必须与GROUPING SETS,ROLLUP,CUBE或GROUP BY结合使用,并且其参数必须与相应的GROUPING SETS,ROLLUP,CUBE或GROUP BY子句中引用的列完全匹配。对于给定的分组,如果分组中包含相应的列,则将位设置为0,否则将其设原创 2021-09-03 21:39:35 · 1456 阅读 · 0 评论 -
presto----grouping sets/cube/rollup 函数
grouping sets/cube/rollupgrouping setscuberollupgrouping sets当需要对表中各个字段进行分组操作的时候,并且最终需要将各个分组的结果汇总在一个表的时候.此时可以通过grouping sets 来简写.将各个分组操作 放置在grouping sets(…) 中.select store_id,group_id,sum(order_amount)from yp_dwb.dwb_order_detailgroup by groupin原创 2021-09-03 21:26:09 · 1786 阅读 · 0 评论 -
presto时间函数
presto时间函数format格式标识date_format(timestamp,format) ===>varchar(日期对象转换为字符串)date_parse(string,format)==>timestamp(字符串转为日期对象)date_add(unit,value,timestamp)==>same as input(数据加减操作)date_diff(unit,timestamp1,timestamp2)==>bigint(时间差)format格式年:%Y月:%原创 2021-09-02 23:38:16 · 1621 阅读 · 0 评论 -
解决缓慢变化维----拉链表
拉链表的实现流程缓慢变化维表数据实现流程(left join + union all)第一步 更新历史数据(left join)第二步 合并新增及更新的数据(union all)缓慢变化维缓慢变化维: 为了记录数据历史变更数据 拉链表: 采用拉链表的形式维护历史变化信息. 在原有表增加二个字段(start_time.end_time) 通过这两个字段, 来维护用户每一段变化的数据经历周期.从而形成拉链数据过程 优点:实现简单,可以非常方便的维护更多的历史版本数据 弊端:只要有其中原创 2021-09-01 21:58:22 · 468 阅读 · 0 评论 -
分桶表的介绍使用
分桶表啥是分桶表?咋定义分桶表?咋向分桶表插入数据?分桶表有啥用?啥是分桶表?主要是用于分文件的.在创建表的时候 .可以按照某个字段进行分桶操作.并且设置分为多少个桶,这样在插入数据的时候.翻译后MR会将分桶字段的值作为k2.将分桶数量作为MR的分区数量.进行划分为多个文件操作.本质就是 MR的分区操作.咋定义分桶表?create table test_buck(id int, name string)clustered by(id) sorted by (id asc) into原创 2021-09-01 21:24:19 · 1017 阅读 · 0 评论 -
如何处理hive的数据倾斜?
提升join的查询效率q: 为什么传统默认join效率低?小表 join 大表(Map join)中型表 join大表 (bucket map join)大表 join大表(SMB map join)q: 为什么传统默认join效率低?默认执行的时候 .执行join的sql. 走MR的时候 最终是在 reduce端进行join操作 .出现问题:1 所有的join连接工作 都是交给reduce端.压力比较大.2 可能会出现数据倾斜问题解决: 变为map joinmap join: 将核心j原创 2021-09-01 20:53:13 · 382 阅读 · 0 评论 -
hdfs解决小文件吃(元数据)内存问题----归档archive
文件归档工具archive1 原因 :2 解决3 具体使用1 创建档案2 查看归档包中的某一个具体文件的信息1 原因 :hdfs本身就不适合小文的存储小文件无论多小,hdfs的元数据也要记住这个文件,而元数据是存在内存中的…如果集群中的小文件过多 ,就会造成内存被撑爆. 这就是小文件吃内存问题.2 解决将一批小文件归档为一个档案文件 .List item底层是通过 MapReduce程序将小文件进行合并. 启动yarn集群执行mr程序.一般以周,月为单位进行归档 .3 具体使用原创 2021-08-20 21:07:51 · 293 阅读 · 0 评论 -
HDFS --- shell
hdfs---shell查看指定目录下的信息hadoop fs -ls创建文件夹hadoop fs -mkdir [-p] 上传文件hadoop fs -put src(本地) dst(hdfs)下载文件hadoop fs -put dst(hdfs) src(本地)追加内容到文件尾部 appendToFilehadoop fs -appendToFile 2.txt 3.txt /1.txt文件内容的查看-cat / -tail权限 拥有者 所属组修改chgrp 更改文件组的关联chmod 改变文件原创 2021-08-20 20:45:53 · 239 阅读 · 0 评论 -
zookeeper集群中各个角色的作用是什么 ?
zookeeper集群角色的作用架构主节点的作用从节点的作用从节点--Observer的作用选举机制架构Zookeeper采用主从模式 ,有主节点和从节点.集群节点一般都是奇数个 .主节点 :Leader从节点 : ①Follower(有选举权) ②ObServer(没有选举权)主节点的作用1 负责管理整个集群,即保证数据的全局一致性2 负责 数据事务(增删改) 相关的操作3 转发 数据非事务 操作给从节点从节点的作用1 实时从主节点拉取数据,保持数据的一致性 .2 负责原创 2021-08-16 21:33:10 · 818 阅读 · 0 评论 -
ZooKeeper shell
ZooKeeper shell客户端连接shell基本操作创建节点create [-s] [-e] path data acl读取节点ls path [watch]ls2 path [watch]get path [watch]更新节点set path data [version]删除节点delete path [version]rmr pathquota (限制节点)set quota -n|-b val path列出命令历史history客户端连接zookeeper/bin/zkCli.sh原创 2021-08-16 21:07:40 · 212 阅读 · 0 评论