自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Doris常用sql

Doris 语法

2024-05-24 10:29:16 3003

原创 mac 开发过中遇到的小问题

1:idea对文件有只读权限,无法修改&新建文档 修改文件权限: 1. cd 你的文件夹路径的上一级目录 2. sudo chmod -R 777 你的文件夹名。2:运行的时候报错 Caused by: java.lang.ClassNotFoundException: org.apache.flink.api.common.type 解决方案:![在这里插入图片描述](https://img-blog.csdnimg.cn/d150fe8b141c42cf8d5142f4

2021-08-11 21:03:26 213

原创 clickhouse 常用语法

1:建表语句CREATE TABLE 库名.表名( 字段名 字段类型, 字段名 字段类型, …… 字段名 字段类型)ENGINE = MergeTree()PARTITION BY ORDER BY ()SETTINGS index_granularity = 81922:删除分区alter table 库名.表名 drop partition ‘2021-05-10’;3:...

2021-05-11 10:22:12 1041

原创 小白在开发过程中遇到的小问题

1:where 判断条件与字段类型不一致,例如:select * from student where student_id <>''; -- student_id bigint comment '学生ID'查询出来的数据为空,实际是有数据的,智障好好学习

2021-05-06 19:17:37 209

原创 hive 小文件合并

转自 http://blog.youkuaiyun.com/yfkiss/article/details/8590486当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并当然,在我们向一个表写数据时,也需要注意输出文件大小Map输入合并小文件对应参数:set mapred.max.split.size

2021-03-30 17:02:45 280

原创 hive 动态分区踩坑记

坑1:动态分区字段要放在最后set hive.auto.convert.join=true;set hive.exec.parallel=true; set hive.exec.dynamic.partition =true;set hive.exec.dynamic.partition.mode = nonstrict;--set hive.exec.max.dynamic.partitions=20000;insert overwrite table dw.kaka_test parti

2021-03-29 11:16:53 1529 1

原创 hive datediff字段类型问题

背景描述在算次返,7返问题的时候,用到了datediff函数,发现两个相邻日期做差出来的结果为0,故去试了一下datediff函数不同字段类型之间的区别。select datediff(cast('2021-03-23' as date),cast('2021-03-22' as string)) as dt_str,datediff(cast('2021-03-23' as string),cast('2021-03-22' as date)) as str_dt,datediff(cast(

2021-03-25 10:57:08 1351

原创 字符串截取,分列

1:去掉字段中的中文select regexp_replace('130-150平米','[\\u4e00-\\u9fa5]+','');备注:\\u4e00-\\u9fa5 为unicode表中汉字的头和尾,"[]"标识出现一次就可以了,"+"表示至少出现一次,合起来就是至少匹配一个汉字2:将上述结果分成130,150两个字段-- 去掉"-"select regexp_replace('130-150平米','[\\u4e00-\\u9fa5]+',''),"\\-";3:分列成两个字

2021-03-02 19:09:08 869

原创 Hive三大排序函数(rank,dense_rank,row_numer)

函数描述 rank 并列相同,后一位为实际排名 dense_rank 并列相同,后一位排名+1 row_number 排名顺延,无并列情况,同样数值的排序规则暂时不清楚使用样例select *, rank() over(partition by subject order by score desc) rank, dense_rank() over(partition by subject order by scor

2021-02-26 15:17:12 1856

原创 hive common join &map join

join的种类hive的join主要分为两类,一个是在reduce阶段完成的common join,另一个是在map阶段完成的map join。common join 的简介使用场景:当未设置map join 或者map join 不满足需求的适合,会自动转为common join实现过程map阶段:1:组建关联键组(一个关联键的时候单个key,多个关联键的时候拼成一个组合)2:列筛选,选择需要的列,并带上表的标签,用以判断字段属于哪张表3:二次排序,partition排序 决定reduce处

2021-02-26 14:15:54 677 1

原创 排序解决连续签到问题

需求描述有一张用户签到的明细表,需要找出连续签到3天及以上的用户1:查看表信息select * from tmp.log_test;user_id login_timeA 2019-11-30 19:26:55 490A 2019-11-30 20:26:55 494A 2019-12-01 20:26:55 495A 2019-12-02 10:2

2021-02-24 13:58:11 302

原创 删除连续出现的数据

删除连续出现的页面浏览日志中会出现一些重复的数据,在清洗数据的需要删除连续出现的页面1: 建表CREATE TABLE temp.kaka_test ( cuid string, timestamp string, pagename string, elementid string, eventtype string) 2:塞入数据insert into table hive. temp.kaka_testselect '1111' as cuid,

2021-02-23 13:54:22 194

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除