一、目的
在数据质量模块,需要对原始数据的重复性进行统计
Hive中原有SQL语句和ClickHouse现有SQL语句很大不同
二、Hive中原有代码
2.1 表结构
--41、八大类基础数据重复性统计表 事件+事件资源不需要重复 create table if not exists hurys_db.dwd_data_duplicate( data_type int comment '1:转向比,2:统计,3:评价,4:区域,5:过车,6:静态排队,7:动态排队,8:轨迹,9:事件数据,10:事件资源', device_no string comment '设备编号', data_duplicate float comment '数据重复率' ) comment '数据重复性统计表' partitioned by (day string) stored as orc ;
2.2 SQL代码
insert overwrite table hurys_db.dwd_data_duplicate partition(day) select '6' data_type, device_no, round(sum(num)/count_num,2) data_duplicate, day from (select device_no, create_time, lane_no, count(1) num, count_num, day from (select device_no, create_time, lane_no,