Hive 常用案例分析

最新推荐文章于 2024-09-01 11:50:54 发布

原创

最新推荐文章于 2024-09-01 11:50:54 发布 · 6.3k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#hive #大数据

1. 数据分箱占比统计

select a.bin
,a.bin_cnt
,concat(round(cast(a.bin_cnt*1.0/b.total_num as decimal(19,4))*100,2),'%') as bin_rate
from (
    select case
        when a1.exchange_rate<0.2 then '[0.0-0.2)'
        when a1.exchange_rate<0.5 then '[0.2-0.5)'
        when a1.exchange_rate<0.8 then '[0.5-0.8)'
        else '[0.8-1]'
    end as bin            --换血率分箱
    ,count(1) as bin_cnt  --分箱数量
    ,'11' as type                      --用于匹配总数的一个临时标志
    from (
        select uid
        ,exchange_rate
        from XX  
    ) a1
    group by case
        when a1.exchange_rate<0.2 then '[0.0-0.2)'
        when a1.exchange_rate<0.5 then '[0.2-0.5)'
        when a1.exchange_rate<0.8 then '[0.5-0.8)'
        else '[0.8-1.0]'
    end
) a
left join (    --通过与原表left join 获得总样本数
    select count(1) as total_num
    ,'11' as type
    from XX
) b
on a.type=b.type
;

2. Hive实现样本随机采样

order by rand() 函数可以对样本进行随机排序，进而实现hive表数据随机取样。

2.1 rand()

产生一个介于0和1之间的随机数

select rand();
-- 0.5523740163966064

-- 指定随机种子，以后使用这个种子每次产生的随机数都是一样的。
select rand(1234);
-- 0.6465821602909256

2.2 order by rand()

对结果进行随机排序

-- 数据随机排序后取前100条
select uid from tablename order

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

MusicDancing

关注关注

0
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

使用Hive随机抽样

yangwenlei222的博客

07-19

2万+

rand() 函数生成一个0-1之间的随机数，可设定随机种子。利用这个函数在hive 中进行随机抽样。 test1 简单随机抽样 SELECT t.varx,t.a FROM( SELECT varx,rand() a FROM tablename)t WHERE t.a BETWEEN 0 AND 0.2 这样就抽取了五分之一的数据。 --或者像这...

大数据开发之Hive案例篇10-大表笛卡尔积优化

只是甲的博客

06-07

1951

我们需要求每一个start_date的累积数量，那么此时我们可以先求每天的，然后求每天累积的，再求当天每一个start_date累积的，加上前一日的累积的，就是最终我们需要的数据。就算数据量提升数倍，因为 join的条件由一个 data_source 变为了两个 data_souce 、dt，大大减少了笛卡尔积的数据量，整个代码的计算量也减少了许多。同样的逻辑，表连接的方式居然就可以了，而分析函数却不行，估计一个是写内存，一个是写磁盘把。将数据倾斜严重的数据，单独拿出来执行。最终的运行时间在5分钟左右。

1 条评论您还未登录，请先登录后发表或查看评论

用于hive的实例

10-23

用户Java对于hive的实例操作，帮助更好地加深对hive语句的理解

hive案例分析

weixin_39846205的博客

08-21

279

表 create table t_salary_stastic( id int, name string, salary1 float,salary2 float,salary3 float) row format delimited fields terminated by ‘,’ 每个人自己的最高工资自己的平均工资，全公司最高工资平均工资，超过最高工资的额度 1, zhangsan, 18...

Hive之示例一：基本操作与案例

weixin_34326429的博客

06-17

403

1. 创建数据库，切换数据库 create database testdb; use testdb; 2. 创建管理表 create table emp( empno int, empname string, job string, mgr int, hiredate string, salary double, comm double, deptn...

精选资源

《Hive数据仓库案例教程》教学大纲.pdf

04-04

11. **进阶案例**：进一步深入的案例分析，挑战学生的分析和解决问题的能力。总的来说，《Hive数据仓库案例教程》是一门旨在培养学生运用Hive进行大数据分析能力的课程，通过理论与实践的结合，帮助学生掌握Hive的...

6.Hive函数重要应用案例

hutc_Alan的博客

06-30

925

Hive学习笔记6，自用

Hive常用窗口分析函数

hyunbar的博客

07-02

472

大数据技术AIFlink/Spark/Hadoop/数仓，数据分析、面试，源码解读等干货学习资料121篇原创内容公众号FIRST_VALUE：取分组内排序后，截止到当前行，第一个值LAST_VALUE：取分组内排序后，截止到当前行，最后一个值LEAD(col,n,DEFAULT) ：用于统计窗口内往后第n行值。第一个参数为列名，第二个参数为往下第n行（可选，默认为1），第三个参数为默认值（当往下第n行为NULL时候，取默认值，如不指定，则为NULL）LAG(col,n,DEFAULT) ：用于统计窗口内往前

Hive常用命令

weixin_41812379的博客

11-09

2279

Hive数据类型 1. 基本数据类型 2. 集合数据类型 3. 案例 (1) 假设某表有如下一行，我们用 JSON 格式来表示其数据结构。在 Hive 下访问的格式为： { "name": "songsong", "friends": ["bingbing" , "lili"] , //列表 Array, "children": { //键值 Map, "xiao song": 18 , "xiaoxiao song": 19 } "address": { //结构 Struct, "

hive理论

weixin_33905756的博客

05-07

150

join操作：这个 group by count()操作：数据倾斜：操作• Join on a.id=b.id• Group by• Count Distinct count(groupby)• 原因• key分布不均导致的• 人为的建表疏忽• 业务数据特点• 症状• 任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce...

hive（六）案例专用

08-21

hive六中案例所需要的资源，本案例是对sql语句的练习。

Hive 案例

ly13607255628的博客

10-16

985

1、需求描述和数据说明针对销售数据，完成统计：按年统计销售额销售金额在 10W 以上的订单每年销售额的差值年度订单金额前10位（年度、订单号、订单金额、排名）季度订单金额前10位（年度、季度、订单id、订单金额、排名）求所有交易日中订单金额最高的前10位每年度销售额最大的交易日年度最畅销的商品(即每年销售金额最大的商品) 数据如下 2、建表并导入数据 vim createtable.hql -- createtable.hql drop database sale cascad

Hive数据分析案例

qq_35447918的博客

10-12

6141

第9章汽车销售数分析系统 1 创建数据库cardb hive>create database if not exists cardb; hive>use cardb; 2 创建数据表car hive>create external table cars(province string, month int, city string, country string, year int, cartype string, productor string, brand string, mo

hive命令实例

jiang0426的博客

05-13

601

1、把本地文件上传到hdfs： load data local inpath '/home/kun/soft/xxx.data' into table t_order; 2、统计表中dept_name个数 select dept_name,count(1) from t group by dept_name; 3、新建一个跟b一样的表结构的a表： create t

Hive 案例分析（B站用户行为大数据分析）

最新发布

slb190623的博客

09-01

2044

Hive 案例分析（B站用户行为大数据分析）

大数据——Hive分析项目案例

qq_40395687的博客

03-09

6611

Hive分析项目案例梳理商业网站中经常统计的数据有哪些： UV：独立访客同一个用户访问多次会产生多个记录，但是这些记录会在运算的时候合并为1个语法：count(distinct guid) PV：页面浏览量同一个用户访问多次，产生多条记录，每一条记录都是一次PV 语法：count(url) 登陆人数：登陆网站访问的人数[普通会员，VIP，SVIP] endUserId标识...

学习笔记3 hive数据分析（实例）

Neflibata_mo的博客

05-26

1643

目的：分析企业新闻舆情的正负面性与该公司是否有非法集资风险的关系。思路：将两张表连接成一张新表；根据“id:企业唯一标识、positive_negtive:新闻正负面性、public_date:发布日期、label”进行数据去重。操作： 1.使用xftp将数据集远程传输到本地中。 2.创建数据库 create database if not exists mytask; 3.选择操作某数据库 use mytask; 4.创建表 create external table test..

Hive实战案例

senga's blog

01-30

1299

离线作业执行流程通过MapReduce进行数据清洗，得到ETL数据创建Hive表，加载ETL数据进行各种维度的统计，并写入到Hive表中将Hive表中的数据导出到MySql（optional，利用Sqoop框架可完成该功能）目前第一步已经执行完成，路径在 /etl/part-r-00000 数据格式如下： time url referer ip ua province pag...

Hive基础+案例

Vicky_ZWH的博客

07-11

1164

hive shell 查看所有数据库：show databases; 创建数据库：create database database_name; 切换数据库：use database_name；查看所有表：show tables; 模糊查询表：show tables like '*name*'; 查看所有的hive函数:show functions;