- 博客(12)
- 收藏
- 关注
原创 mac 开发过中遇到的小问题
1:idea对文件有只读权限,无法修改&新建文档 修改文件权限: 1. cd 你的文件夹路径的上一级目录 2. sudo chmod -R 777 你的文件夹名。2:运行的时候报错 Caused by: java.lang.ClassNotFoundException: org.apache.flink.api.common.type 解决方案:ENGINE = MergeTree()PARTITION BY ORDER BY ()SETTINGS index_granularity = 81922:删除分区alter table 库名.表名 drop partition ‘2021-05-10’;3:...
2021-05-11 10:22:12
1041
原创 小白在开发过程中遇到的小问题
1:where 判断条件与字段类型不一致,例如:select * from student where student_id <>''; -- student_id bigint comment '学生ID'查询出来的数据为空,实际是有数据的,智障好好学习
2021-05-06 19:17:37
209
原创 hive 小文件合并
转自 http://blog.youkuaiyun.com/yfkiss/article/details/8590486当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并当然,在我们向一个表写数据时,也需要注意输出文件大小Map输入合并小文件对应参数:set mapred.max.split.size
2021-03-30 17:02:45
280
原创 hive 动态分区踩坑记
坑1:动态分区字段要放在最后set hive.auto.convert.join=true;set hive.exec.parallel=true; set hive.exec.dynamic.partition =true;set hive.exec.dynamic.partition.mode = nonstrict;--set hive.exec.max.dynamic.partitions=20000;insert overwrite table dw.kaka_test parti
2021-03-29 11:16:53
1529
1
原创 hive datediff字段类型问题
背景描述在算次返,7返问题的时候,用到了datediff函数,发现两个相邻日期做差出来的结果为0,故去试了一下datediff函数不同字段类型之间的区别。select datediff(cast('2021-03-23' as date),cast('2021-03-22' as string)) as dt_str,datediff(cast('2021-03-23' as string),cast('2021-03-22' as date)) as str_dt,datediff(cast(
2021-03-25 10:57:08
1351
原创 字符串截取,分列
1:去掉字段中的中文select regexp_replace('130-150平米','[\\u4e00-\\u9fa5]+','');备注:\\u4e00-\\u9fa5 为unicode表中汉字的头和尾,"[]"标识出现一次就可以了,"+"表示至少出现一次,合起来就是至少匹配一个汉字2:将上述结果分成130,150两个字段-- 去掉"-"select regexp_replace('130-150平米','[\\u4e00-\\u9fa5]+',''),"\\-";3:分列成两个字
2021-03-02 19:09:08
869
原创 Hive三大排序函数(rank,dense_rank,row_numer)
函数描述 rank 并列相同,后一位为实际排名 dense_rank 并列相同,后一位排名+1 row_number 排名顺延,无并列情况,同样数值的排序规则暂时不清楚使用样例select *, rank() over(partition by subject order by score desc) rank, dense_rank() over(partition by subject order by scor
2021-02-26 15:17:12
1856
原创 hive common join &map join
join的种类hive的join主要分为两类,一个是在reduce阶段完成的common join,另一个是在map阶段完成的map join。common join 的简介使用场景:当未设置map join 或者map join 不满足需求的适合,会自动转为common join实现过程map阶段:1:组建关联键组(一个关联键的时候单个key,多个关联键的时候拼成一个组合)2:列筛选,选择需要的列,并带上表的标签,用以判断字段属于哪张表3:二次排序,partition排序 决定reduce处
2021-02-26 14:15:54
677
1
原创 排序解决连续签到问题
需求描述有一张用户签到的明细表,需要找出连续签到3天及以上的用户1:查看表信息select * from tmp.log_test;user_id login_timeA 2019-11-30 19:26:55 490A 2019-11-30 20:26:55 494A 2019-12-01 20:26:55 495A 2019-12-02 10:2
2021-02-24 13:58:11
302
原创 删除连续出现的数据
删除连续出现的页面浏览日志中会出现一些重复的数据,在清洗数据的需要删除连续出现的页面1: 建表CREATE TABLE temp.kaka_test ( cuid string, timestamp string, pagename string, elementid string, eventtype string) 2:塞入数据insert into table hive. temp.kaka_testselect '1111' as cuid,
2021-02-23 13:54:22
194
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅