
hive
elibneh
这个作者很懒,什么都没留下…
展开
-
hive检查特定分区
hive检查特定分区;show partitions table_name partition(ds = '20220224')原创 2022-03-09 15:56:21 · 3012 阅读 · 0 评论 -
SQL:从入门到“精通”
SQL:从入门到“精通”原创 2021-01-26 15:37:04 · 250 阅读 · 0 评论 -
hfds下的文件导入hive表格
目的:每天向hive表格导入hfds下的文件结果:整个文件夹下的文件均能导入到该表格中;不管总文件夹下生成了多少个小文件-- table_name、columns_name、path_name、partition_name需要自己定义create external table -- external 必需`table_name`(`uid` bigint,`freq` double) partitioned by (`dt` string)row format delimite..原创 2020-07-20 21:07:00 · 264 阅读 · 0 评论 -
hive grouping sets的正确打开方式
-- 为了偷懒想使用grouping sets,但是正确打开该函数,还是有难度的-- 1. 不可以有多个表格相同列名的情况;如果多表格列名相同的,需更改;uid、col_a、col_b都需要改成不同的名字-- 2. 不可以在select之后有表格别名的情况,比如a.col_a_1是不允许的;但是因为列名都不同,没有关系-- 3. select之后用来aggregate(聚合)的字段,不可以进入计算;所以需要新加入col_b_1_1,而不是直接使用 col_b_1-- 4. tips:如果不想有聚.原创 2020-07-20 21:04:50 · 600 阅读 · 0 评论 -
hive(sql)命名新生成表格未命名列(字段)
hive中有时候create table新生成表格时候忘记命名一些通过函数计算之后生成的列。如果没有命名,hive会帮忙取一个列名,名字我这里是`_c0`这样的格式。c后面的数字应该是说这个未命名的列是第几列,目测是从0开始的。阔起来的符号是 撇号,英文叫apostrophe,在我的键盘上的位置是:1左边的键。change后面跟上要改的那个列,可以先desc一下看一下hive给取了什么...原创 2018-10-11 15:59:43 · 3885 阅读 · 1 评论 -
基尼系数近似计算:sql (hive)实现 简单高效
通过近似的方法,如何在sql中计算基尼系数。如何在python中实现基尼系数计算的两种方法,可以查看我的另一篇文章。两篇文章取数相同,可以结合去看。如果想加深对基尼系数计算的逻辑:可查看文章http://www.cnblogs.com/longwind09/p/8047539.html。本文中采用的近似方法,如何建立近似计算公式、如何简化推导公式可查看文章,本文基于这篇文章进行注...原创 2018-11-14 11:02:58 · 1135 阅读 · 0 评论 -
基尼系数计算的两种方法:python实现 简单高效
使用两种方法,通过python计算基尼系数。在sql中如何计算基尼系数,可以查看我的另一篇文章。两篇文章取数相同,可以结合去看。文章中方法1的代码来自于:(加入了一些注释,方便理解)。为精确计算。如果对于基尼系数概念不太清楚,可以看原文的第一部分。http://www.cnblogs.com/longwind09/p/8047539.html方法2和3借鉴资料:方法2和3...原创 2018-11-14 11:00:50 · 4364 阅读 · 0 评论 -
10 simple and useful hive functions you should know first
1. show databases;Usually your tables are stored in some databases and with this line of code, you could get the names of the databases you have access to.And all your sql or hive codes should end w...原创 2019-01-31 16:55:02 · 246 阅读 · 0 评论