数据仓库——collect_set函数、NVL函数、日期处理

本文详细介绍SQL中的collect_set、nvl及日期处理函数的功能与应用场景。collect_set用于去重并组合数据,nvl用于处理空值,日期处理函数则帮助进行日期格式化与计算。

目录

1.collect_set函数

2.nvl函数

3.日期处理函数


1.collect_set函数

 数据:

idorder-typeorder-number
1aa5
2bb2
1bb1
2aa3
1aa2

 

需求:对用户的订单进行分析,将不同订单类型分别多少单展示出来,每个用户一行

实现:

1.使用concat()函数将order_type和order_number连接起来

concat(order_type,'(',order_number,')')

2.使用concat_ws()和collect_set()进行合并行

将上面列表中一个user可能会占用多行转换为每个user占一行的目标表格式,实际是“列转行”

select user,concat_ws(',',collect_set(concat(order_type,'(',order_number,')')))  order from table group by user

order是别名

作用:

  • 去重,对group by后面的id去重
  • 对group by以后属于同一id的形成一个集合,结合concat_ws对集合中元素使用,进行分隔形成字符串

2.nvl函数

NVL(表达式1,表达式2)

nvl是一个空值转换函数。

如果表达式1为空值,NVL返回值为表达式2的值,否则返回表达式1的值。 该函数的目的是把一个空值(null)转换成一个实际的值。其表达式的值可以是数字型、字符型和日期型。但是表达式1和表达式2的数据类型必须为同一个类型

应用场景:

  •   可以设置字段如果为空的默认值。例如如果一个人在注册app时不填写用户名称时默认取你注册用的微信名称一样。
  •   也可以用于外关联(join等)时两个表中有重复字段但是值不一样时,可以设置该字段取值的优先级别。例如两个事件表,一个是紧急事件表,另一个是基本事件表,两个表中都有一个字段名为事件紧急程度,这里我们就可以先将两个表进行关联,在设置事件紧急程度时首先取紧急事件表中该字段的内容,如果为空再取基本事件表中该字段的内容。

3.日期处理函数

  • data_format函数(根据格式整理日期)

select data_format('2020-11-6','yyyy-mm');

  • data_add函数(加减日期)

前一天: select date_add('2020-11-6',-1);

后一天: select date_add('2020-11-6',1);

  • next_day函数

(1)取当前天的下一个周一

select next_day('2020-11-06','MO');

(2)取当前周的周一

select date_add(next_day('2020-11-06','MO'),-7);

  • last_day函数(求当月的最后一天日期)

select last_day('2020-10-30');

 

 

 

 

所以再次回答我insert overwrite table语句中partition子句赋值格式错误,Hive要求partition字段赋值必须是常量或变量替换后的值,且写法应为partition(pt_d='value'),不能包含表达式或字符串拼接。 错误原因:分区字段pt_d类型为string,且赋值中包含未替换变量'00${pre_1day_hd}',可能导致分区值类型不匹配或分区不存在。 修正建议:确保变量${pre_1day_hd}被替换为合法日期字符串,且分区赋值写法为partition(pt_d='${pre_1day_hd}'),去掉前缀'00',避免类型不匹配。 插入字段量与目标表字段量不匹配,缺少分区字段pt_d。 错误原因:目标表cb.dwd_cb_ord_business_drill_hd有分区字段pt_d,insert字段列表未包含该分区字段。 修正建议:insert语句中不应在select字段列表包含分区字段pt_d,partition子句中指定即可,当前写法符合要求,无需修改select字段。 字段不存在错误: owner_user_id字段在ods_crm.tmp_dwd_fxiaoke_cb_new_opportunity_obj_hd表中不存在,SQL中where条件使用了owner_user_id。 last_time字段在a表中不存在,但select中使用了a.last_time。 receivables_node字段在d表中不存在,但select中使用了d.receivables_node。 receivables_plan_num字段来源d.Field2__c,d表中field2__c字段不存在。 receivables_plan_status字段来源d.status__c,d表中status__c字段不存在。 修正建议: owner_user_id字段无相似字段,删除where条件中owner_user_id相关过滤。 last_time字段无相似字段,删除select中last_time字段。 receivables_node字段无相似字段,删除select中receivables_node字段。 receivables_plan_num字段应改为d.field2__c改为d.field2__c不存在,考虑是否为d.field2__c拼写错误,元信息无该字段,删除该字段。 receivables_plan_status字段d.status__c不存在,删除该字段。 字段类型不兼容错误: user_id字段目标表为bigint,SQL中c.user_id为string,不兼容。 receivables_plan_status字段目标表为int,SQL中来源字段为string,已删除该字段。 is_end字段目标表为bigint,SQL中来源is_received为string,不兼容。 修正建议: user_id字段cast(c.user_id as bigint)。 is_end字段cast(is_received as bigint)。 Hive不支持collect_set作为窗口函数collect_set(owner_user_name) over(partition by business_id)用法错误。 修正建议:改为先group by business_id聚合owner_user_name,再join回主表或使用子查询实现。 nvl函数应替换为coalesce函数。 SQL中多处nvl函数使用,替换为coalesce。 注释掉的t2表导致case表达式中t2.name字段缺失,business_status和status字段来源缺失。 修正建议:注释掉的t2表相关case表达式中t2.name改为null或默认值。这几条纠错是不是正确的
09-18
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值