多个字段的in 和 not in 及其替代写法(exists,not exists)

首先声明:数据库高手请走开,您看了碍眼啊!

有些时候进行查询的时候啊,一个字段的in、 not in根本不能满足要求,非常需要类似多个字段的in、not in,但是很多数据库不支持多个字段的in、 not in (DB2是支持的),估计也让不少朋友们郁闷吧!不过没关系,我这不写文章了嘛,呵呵!

我用过的数据库有Access,SQL Server,DB2,见笑见笑啊!其实也就SQL Server,DB2这两个还像点样点儿,呵呵……,言归正传啊

首先声明DB2是支持多个字段 in、 not in的

 

先说基本情况:

数据库:DB2 8.2,SQL Server 2005 Express

表a  有字段:aaa,bbb,还可能有其他字段。记录条数:3764

表b  有字段:aaa,bbb,还可能有其他字段。记录条数:4127

够明显了吧,就是表a的字段aaa跟表b的字段aaa有对应关系,就是表a字段的bbb跟表b的字段bbb有对应关系。

但是只有aaa,bbb两个字段都同时对应上了才算是真的对应上了。(也不知道我说的清不清楚,理解万岁啊)

 

好了,开始正文:

 

1.       先说“in”。

从表b里查询出满足条件“select aaa,bbb from a”的记录:

如下语句就是我们想要的结果:

select * from b where (aaa,bbb)  in ( select aaa,bbb from a );

不过很可惜,上面的语句只能再DB2上执行,SQL Server不行。(其他数据库没有试过,不知道啊!)

还好可以用下面的语句来代替

select * from b where  exists ( select * from a where a.aaa=b.aaa and a.bbb=b.bbb);

 

当然你可能会说我的条件是“select aaa,bbb from a where 表a某字段1='...' and 表a某字段2>1111” 什么等等,我就权且用“查询条件A”代表了

即:查询条件A = 表a某字段1='...' and 表a某字段2>1111

那语句就该这么写了

select * from b where (aaa,bbb)  in ( select aaa,bbb from a where 查询条件A);

select * from b where  exists ( select * from a where a.aaa=b.aaa and a.bbb=b.bbb and 查询条件A);

用exists时,最好把“查询条件A”中的“表a某字段1”之类写为“a.表a某字段1”。原因自己想啊。

 

2.       再说“not in”。基本和“in”一样,我就直接复制过来了,偷个懒啊

从表b里查询出不在结果集“select aaa,bbb from a”中的记录:

如下语句就是我们想要的结果:

select * from b where (aaa,bbb) not in ( select aaa,bbb from a );

不过很可惜,上面的语句只能再DB2上执行,SQL Server不行。(其他数据库没有试过,不知道啊!)

还好可以用下面的语句来代替

select * from b where not exists ( select * from a where a.aaa=b.aaa and a.bbb=b.bbb);

 

当然你可能会说我的条件是“select aaa,bbb from a where 表a某字段1='...' and 表a某字段2>1111” 什么等等,我就权且用“查询条件A”代表了

即:查询条件A = 表a某字段1='...' and 表a某字段2>1111

那语句就该这么写了

select * from b where (aaa,bbb) not in ( select aaa,bbb from a where 查询条件A);

select * from b where not exists ( select * from a where a.aaa=b.aaa and a.bbb=b.bbb and 查询条件A);

用not exists时,最好把“查询条件A”中的“表a某字段1”之类写为“a.表a某字段1”。原因自己想啊。

  

ok,说完了,下面就几个方面比较一下吧(虽然意义不是很大,呵呵)

写法上:

当然是in、not in最直观了(地球人都知道)。

 

 

再说效率问题(仅限DB2,原因不用说了吧)

in效率比exists高

not exists效率比not in高

具体执行时间如下

in      0.01 secs

exists  0.03 secs

not in      8.62 secs

not exists  0.03 secs

 

总结:

       多字段in、not in在db2数据中可以执行,SQL Server不行。(其他数据库没有试过,不知道!)

       exists、not exists在db2,SQL Server均可执行。(其他数据库没有试过,不知道!)

       而且总体上用exists,not exists 效率都很高,建议大家还是用好exists,not exists吧!

 

### 如何在Hive中替换字段值 在Hive中,可以通过内置函数或者自定义UDF(User Defined Functions)来实现字段值的替换操作。 #### 使用内置函数 `translate` 替换字段值 对于简单的字符替换需求,可以直接使用Hive内置的 `translate` 函数[^2]。该函数的作用是将输入字符串中的某些字符替换成指定的目标字符集合。其语法如下: ```sql SELECT translate(input_string, from_chars, to_chars); ``` 其中: - `input_string`: 需要处理的原始字符串。 - `from_chars`: 要被替换掉的字符集。 - `to_chars`: 对应于 `from_chars` 的目标字符集。 例如,假设有一个表 `example_table`,其中一个字段名为 `name`,我们希望把所有的字母 'a' 替换为 '*': ```sql SELECT name, translate(name, 'a', '*') AS replaced_name FROM example_table; ``` 这条SQL语句会返回一个新的列 `replaced_name`,它包含了经过替换后的结果。 需要注意的是,当存在长度不匹配的情况时,超出部分会被忽略;如果任意参数为空,则整个表达式的计算结果也将为空。 #### 自定义UDF进行复杂替换逻辑 针对更复杂的业务场景,比如基于某种特定规则而非简单的一一映射来进行替换,可以考虑编写自己的UDF。下面是一个例子展示如何创建并注册这样一个用于脱敏处理的Java UDF[^3]: ```java package com.chauncy; import org.apache.hadoop.hive.ql.exec.UDF; import org.apache.hadoop.io.Text; public class TuoMin extends UDF { public Text evaluate(final Text s) { if (s == null) { return null; } // 只保留第一个字符作为代表,并附加固定后缀"@chauncy" String str = s.toString().substring(0, 1) + "@chauncy"; return new Text(str); } } ``` 完成上述代码开发之后,在实际应用前还需要将其打包成jar包形式上传至集群环境,并通过ADD JAR命令加载到当前session当中去: ```sql ADD JAR /path/to/your/custom_udf.jar; CREATE TEMPORARY FUNCTION tuo_min AS 'com.chauncy.TuoMin'; ``` 随后即可像调用其他标准SQL函数那样正常使用这个新定义出来的`tuo_min()`方法了。 #### 数据存储格式的选择影响性能表现 最后值得注意一点,不同的数据存储格式会对执行效率造成一定差异。Parquet作为一种高效的列式存储格式,相比JSON等传统行存方式能够显著提升读写速度以及减少磁盘占用空间[^4]。因此建议尽可能采用此类优化过的方案保存大规模结构化数据集以便后续分析作业顺利开展。 ---
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值