spencie-优快云博客

1：idea对文件有只读权限，无法修改&新建文档修改文件权限： 1. cd 你的文件夹路径的上一级目录 2. sudo chmod -R 777 你的文件夹名。2：运行的时候报错 Caused by: java.lang.ClassNotFoundException: org.apache.flink.api.common.type 解决方案：![在这里插入图片描述](https://img-blog.csdnimg.cn/d150fe8b141c42cf8d5142f4

2021-08-11 21:03:26 213

原创 clickhouse 常用语法

1：建表语句CREATE TABLE 库名.表名( 字段名字段类型, 字段名字段类型, …… 字段名字段类型)ENGINE = MergeTree()PARTITION BY ORDER BY ()SETTINGS index_granularity = 81922：删除分区alter table 库名.表名 drop partition ‘2021-05-10’;3：...

2021-05-11 10:22:12 1041

原创小白在开发过程中遇到的小问题

1：where 判断条件与字段类型不一致，例如：select * from student where student_id <>''; -- student_id bigint comment '学生ID'查询出来的数据为空，实际是有数据的，智障好好学习

2021-05-06 19:17:37 209

原创 hive 小文件合并

转自 http://blog.youkuaiyun.com/yfkiss/article/details/8590486当Hive输入由很多个小文件组成，由于每个小文件都会启动一个map任务，如果文件过小，以至于map任务启动和初始化的时间大于逻辑处理的时间，会造成资源浪费，甚至OOM。为此，当我们启动一个任务，发现输入数据量小但任务数量多时，需要注意在Map前端进行输入合并当然，在我们向一个表写数据时，也需要注意输出文件大小Map输入合并小文件对应参数：set mapred.max.split.size

2021-03-30 17:02:45 280

原创 hive 动态分区踩坑记

坑1：动态分区字段要放在最后set hive.auto.convert.join=true;set hive.exec.parallel=true; set hive.exec.dynamic.partition =true;set hive.exec.dynamic.partition.mode = nonstrict;--set hive.exec.max.dynamic.partitions=20000;insert overwrite table dw.kaka_test parti

2021-03-29 11:16:53 1529 1

原创 hive datediff字段类型问题

背景描述在算次返，7返问题的时候，用到了datediff函数，发现两个相邻日期做差出来的结果为0，故去试了一下datediff函数不同字段类型之间的区别。select datediff(cast('2021-03-23' as date),cast('2021-03-22' as string)) as dt_str,datediff(cast('2021-03-23' as string),cast('2021-03-22' as date)) as str_dt,datediff(cast(

2021-03-25 10:57:08 1351

原创字符串截取，分列

1：去掉字段中的中文select regexp_replace('130-150平米','[\\u4e00-\\u9fa5]+','');备注：\\u4e00-\\u9fa5 为unicode表中汉字的头和尾，"[]"标识出现一次就可以了，"+"表示至少出现一次，合起来就是至少匹配一个汉字2：将上述结果分成130，150两个字段-- 去掉"-"select regexp_replace('130-150平米','[\\u4e00-\\u9fa5]+',''),"\\-";3：分列成两个字

2021-03-02 19:09:08 869

原创 Hive三大排序函数（rank，dense_rank，row_numer）

函数描述 rank 并列相同，后一位为实际排名 dense_rank 并列相同，后一位排名+1 row_number 排名顺延，无并列情况，同样数值的排序规则暂时不清楚使用样例select *, rank() over(partition by subject order by score desc) rank, dense_rank() over(partition by subject order by scor

2021-02-26 15:17:12 1856

原创 hive common join &map join

join的种类hive的join主要分为两类，一个是在reduce阶段完成的common join，另一个是在map阶段完成的map join。common join 的简介使用场景：当未设置map join 或者map join 不满足需求的适合，会自动转为common join实现过程map阶段：1：组建关联键组（一个关联键的时候单个key，多个关联键的时候拼成一个组合）2：列筛选，选择需要的列，并带上表的标签，用以判断字段属于哪张表3：二次排序，partition排序决定reduce处

2021-02-26 14:15:54 677 1

原创排序解决连续签到问题

需求描述有一张用户签到的明细表，需要找出连续签到3天及以上的用户1:查看表信息select * from tmp.log_test;user_id login_timeA 2019-11-30 19:26:55 490A 2019-11-30 20:26:55 494A 2019-12-01 20:26:55 495A 2019-12-02 10:2

2021-02-24 13:58:11 302

原创删除连续出现的数据

删除连续出现的页面浏览日志中会出现一些重复的数据，在清洗数据的需要删除连续出现的页面1: 建表CREATE TABLE temp.kaka_test ( cuid string, timestamp string, pagename string, elementid string, eventtype string) 2:塞入数据insert into table hive. temp.kaka_testselect '1111' as cuid,

2021-02-23 13:54:22 194

frash_ka的博客

原创 Doris常用sql

原创 mac 开发过中遇到的小问题