hive 嵌套查询,数据清洗,简单demo.

本文介绍了一种数据清洗和处理的方法,重点在于如何将原始数据中的特定字段转换为数字格式,并排除无效或不符合条件的数据记录。同时,文章还提供了一个实际的SQL代码示例,演示了如何使用SQL进行数据清洗,包括去除特殊符号、处理空值和异常值等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

首先看原始数据

需要把这三列转换成数字格式
这里写图片描述
其次city 字段不可是如下值:
‘其他城市’,’点评实验室’
这里写图片描述
最后,经纬度,不可以未NULL ,空字符串,以及0
这里写图片描述
顺带,表结构如下,以dt 即日期为分区。
这里写图片描述

o了,表结构有了,我们直接上Demo 代码。

欢迎留言哦。

insert overwrite table dimension.ac_wuba_life partition(dt='2018-04-13')
select shop_name,
    cate,
    tag_flag,
    city,
    hot_num,
    active_num,
    regexp_replace(service_grade, "  ↑", "") as service_grade,
    address,
    map_lat,
    map_lng,
    shop_url
    from(SELECT
        shop_name,
        cate,
        tag_flag,
        city, 
        CASE 
            WHEN hot_num = '' then 0
            ELSE regexp_replace(hot_num, "  ↑", "")
        END as hot_num,
        CASE 
            WHEN active_num = '' then 0
            ELSE regexp_replace(active_num, "  ↑", "")
        END as active_num,
        CASE 
            WHEN service_grade = '' then 0
            ELSE regexp_replace(service_grade, "   ↓", "")
        END as service_grade,
        address,
        map_lat,
        map_lng,
        shop_url
    FROM dimension.ac_wuba_life 
    WHERE map_lat IS NOT NULL
        AND map_lng IS NOT NULL
        AND map_lat != 0
        AND map_lng != 0
        AND map_lat != ''
        AND map_lng != ''
        AND city != '其他城市'
        AND city != '点评实验室' ) b;
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值