Hive-- not in + in的条数不等于总条数

本文记录了一个关于Hive查询的问题,当使用notin操作符时,未明确考虑null值导致查询结果不准确。问题在于Hive的notin在内部隐含了is not null条件。解决方法是将notin查询与is null条件结合使用,以确保得到正确的数据统计。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 今天帮同事看他的一个bug的时候又遇到这个问题,记录一下(之前自己遇到的时候忘记记录了~)

问题:

  • 某列存在null值,关联表太多且对数据不熟悉,导致了个小bug
  • 查询数据的时候not in + in的条数不等于总条数

复现:

  • step1:准备数据
drop table bi_temp.temp_hzy_20221021;
create table bi_temp.temp_hzy_20221021  as
select 1 as id,'张三' union all
select 2 as id,'李四' union all
select 3 as id,'王五' union all
select null as id,'赵六' union all
select null as id ,'孙七'
;
  • step2:查看数据
    • 总共5条
select * from bi_temp.temp_hzy_20221021;

在这里插入图片描述

  • step3:查看not in数据
    • 一条,id=3,无null的
select * 
from bi_temp.temp_hzy_20221021
where id not in (1,2)
;

在这里插入图片描述

  • step4:查看in数据
    • 两条,id=1和id=2,无null的
select * 
from bi_temp.temp_hzy_20221021
where id not in (1,2)
;

在这里插入图片描述

  • step5:发现问题
    • 可以看到not in + in的条数不等于总条数

原因:

  • hive的where条件中使用的not in 或者in时,隐藏了 is not null 的条件

解决

  • not in条数 + in 条数再加上 is null 就能等于总数
    在这里插入图片描述
  • 也就是说

select * 
from bi_temp.temp_hzy_20221021
where id not in (1,2)
;

等价于


select * 
from bi_temp.temp_hzy_20221021
where id not in (1,2) and id is not null
;
### Hive `-e` 参数的用法 Hive 提供了一个命令行工具,允许用户通过 `hive -e` 执行单条 SQL 查询或者一系列查询语句。此参数主要用于运行简单的 HiveQL 脚本或命令。 #### 语法 ```bash hive -e "SQL_QUERY" ``` 其中 `"SQL_QUERY"` 是要执行的具体 HiveQL 语句。如果需要执行多个查询,则可以将它们连接在一起并用分号 (`;`) 隔开[^1]。 #### 示例 以下是几个常见的使用场景: 1. **执行简单查询** 如果只想查看某个表的内容,可以直接写一条 SELECT 语句: ```bash hive -e "SELECT * FROM employees LIMIT 10;" ``` 2. **创建表并数据** 可以一次性完成建表数据的操作: ```bash hive -e " CREATE TABLE IF NOT EXISTS employee ( id INT, name STRING, salary DOUBLE ); LOAD DATA INPATH '/data/employee.txt' INTO TABLE employee; " ``` 3. **处理特殊字符** 当 SQL 中包含单引号时,需注意转义问题。例如插入含有单引号的数据时,可采用 PostgreSQL 类似的解决办法[^2]: ```bash hive -e "INSERT INTO table_name VALUES ('<html><script>let a=''a''</script></html>');" ``` 或者使用反斜杠进行转义: ```bash hive -e "INSERT INTO table_name VALUES ('<html><script>let a=\\'a\\'</script></html>');" ``` 4. **导出查询结果到文件** 结合重定向功能,可以将查询结果保存至本地文件: ```bash hive -e "SELECT * FROM sales;" > output.csv ``` 5. **调优配置** 在某些情况下可能需要调整 MapReduce 的行为,比如设置 Reduce 数量来优化性能。可以通过 `SET` 命令实现这一点: ```bash hive -e " SET mapred.reduce.tasks=-1; SELECT COUNT(*) FROM large_table WHERE condition='value'; " ``` ### 注意事项 - 若涉及复杂逻辑建议编写独立 `.hql` 文件并通过 `-f` 参数提交。 - 对于大规模作业应考虑资源分配合理性集群负载情况[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值