
hive]
yangwenlei222
这个作者很懒,什么都没留下…
展开
-
使用Hive随机抽样
rand() 函数 生成一个0-1之间的随机数,可设定随机种子。利用这个函数在hive 中进行随机抽样。test1 简单随机抽样SELECT t.varx,t.aFROM( SELECT varx,rand() a FROM tablename)tWHERE t.a BETWEEN 0 AND 0.2这样就抽取了五分之一的数据。--或者像这...原创 2018-07-19 18:38:58 · 22804 阅读 · 2 评论 -
count(1)count(*)count(columnname)区别
1.内容count(1),所有行都用1代替,统计行数count(*)所有行数包括NULLcount(columnname) columnname非NULL的行数2.速度列名为主键,count(列名)优于count(1) 列名不为主键,count(1)会比count(列名)快 如果表多个列并且没有主键,则 count(1) 的执行效率优于 count(*) 如果有主...翻译 2018-07-20 15:50:04 · 829 阅读 · 1 评论