问题的关键就在于AND和OR的执行顺序问题。
查阅资料,关系型运算符优先级高到低为:NOT>AND>OR
如果where 后面有OR条件的话,则OR自动会把左右的查询条件分开
hive 中‘不等于’不管是用! 或者<>符号实现,都会将空值即null过滤掉,此时要用
where (white_level<>'3' or white_level is null)
或者 where (white_level!='3' or white_level is null ) 来保留null 的情况。
group by:
group by中有若干陷阱,首先,group by中不能使用当前层次中select查询字段的别名,如:select name a,count(*) from student group by a;这句查询语句是错误的,
但是,group by可以使用子查询中select查询字段的别名,如:select m.a,count(*) from (select name a from student)m group by m.a; 但是select m.name,count(*) from (select name a from student)m group by m.name;都是错误的,错误原因是子查询中使用了别名后,外层查询只能通过别名来对其进行操作。所以:内层查询使用别名时,外层select这个字段必须使用其别名,而且group by必须和当前层次的select中的字段名称相同(哪怕有别名也不能用)
where和having:
where语句中不能使用当前层次查询的聚合函数,如果要使用当前层次的聚合函数,则必须使用having,当然,where可以使用子查询的聚合函数如:select m.a,m.b,count(*) from (select name a,count(*) b from student group by name)m where m.b group by m.a,m.b; 此处where中就使用了m.b也就是子查询的聚合函数,注意不能使用m.count(*)
所以:where语句中不能使用聚合函数,having语句可以,where语句中可以使用子查询的聚合函数,但是必须以别名的形式表示
由于在通常得SQL写法中不等于也可以这样写 != 。但在hive中,当一个string类型和int类型比较的时候会出现问题。
数字和数字类型用 可以用 != 比较:
[sql] view plain copy
hive> select * from t_pvorder where 1 != 1 and start_date=20130306 limit 1;
OK
Time taken: 0.079 seconds
带引号的数字和数字类型 可以用!= 比较:
[sql] view plain copy
hive> select * from t_pvorder where "136258563267" != 0 and start_date=20130306 limit 1;
OK
1323499396180741 13437046875509ec 0 102213 100002 01 -1 2013-03-06 20:59:07 1362574747440zW4 20130306
Time taken: 0.169 seconds
带引号的数字和带引号数字类型 可以用 != 比较:
[sql] view plain copy
hive> select * from t_pvorder where "136258563267" != "0" and start_date=20130306 limit 1;
OK
1323499396180741 13437046875509ec 0 102213 100002 01 -1 2013-03-06 20:59:07 1362574747440zW4 20130306
Time taken: 0.129 seconds
字符串和数字类型 不可以用 !=比较:
[sql] view plain copy
hive> select * from t_pvorder where 0 != "1362585632671uFu" and start_date=20130306 limit 1;
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
//发起mapreduce 查不出结果
....
字符串和数字类型 不可以用 <> 比较:
[sql] view plain copy
hive> select * from t_pvorder where 0 <> "1362585632671uFu" and start_date=20130306 limit 1;
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
//发起mapreduce <span style="font-family:Arial, Helvetica, sans-serif;">查不出结果</span>
博客主要围绕SQL查询展开,介绍了关系型运算符优先级,NOT>AND>OR,OR会分开左右查询条件。还指出group by不能用当前层次select字段别名,但可用子查询别名;where不能用当前层次聚合函数,可用子查询聚合函数,而having可使用当前层次聚合函数。
571

被折叠的 条评论
为什么被折叠?



