
Hive
文章平均质量分 70
.
落幕7
山山而川
展开
-
Hivesql10题
手写HQL10题原创 2022-05-13 15:00:10 · 700 阅读 · 0 评论 -
数据中台建设
文章目录数据中台建设五步落地法1.数据中台建设-数据资源盘点2.数据中台建设-数据应用规划3.数据中台建设-数据中台设计4.数据中台建设-数据中台开发5.数据中台建设-数据中台运营 数据中台建设五步落地法 1.数据资源的盘点 技术情况的盘点 数据情况的盘点 业务情况的盘点 2.数据应用的规划 企业架构梳理 引用场景规划 指标标签指定与管理 3.数据中台的建设 技术平台框架产品的选择 数据模型的设计 算法模型的设计 4.数据中台的开发 数据同步和数据建模实施 数据应用实施 数据资产管理构建原创 2021-12-06 19:03:57 · 1454 阅读 · 0 评论 -
Hive调优(重点)
Hive调优<重点>一、Hive常见优化方式Hive调优-建表注意事项Hive调优-查询优化二、Hive数据倾斜及解决办法Hive调优-作业优化 一、Hive常见优化方式 Hive调优-建表注意事项 1.分区,分桶 一般是按照业务日期进行分区 每天的数据放在一个分区里 2.一般使用外部表,避免数据误删 Hive映射HBase表的几种方式 Hive与es之间实现数据交互 3.选择适当的文件压缩格式 4.命名要规范 5.数据分层,表分离,但是也不要分的太散 Hive调优-查询优化 分区裁剪 wh原创 2021-09-26 20:23:24 · 476 阅读 · 0 评论 -
Hive笔记(一)建表,加载数据,分区、桶,JDBC
一、Hive 查看SQL解析计划: // extended 可选,可以打印更多细节 explain select a.id ,a.name ,a.clazz ,t1.sum_score from( select id ,sum(score) as sum_score from score group by id )t1 rig原创 2021-09-27 19:51:36 · 968 阅读 · 0 评论 -
Hive笔记(二)SQL练习,数据类型
文章目录SQL练习:Hive数据类型整型:TINYINT、SMALLINT、INT、BIGINT浮点:FLOAT、DOUBLE布尔类型:BOOL (False/True)字符串:STRING时间类型:复杂数据类型:Hive HQLDDLDML SQL练习: 1、count(*)、count(1) 、count(‘字段名’) 区别 2、HQL 执行优先级: from、where、 group by 、having、order by、join、select 、limit 3、where 条件里不支持不等式子查原创 2021-09-29 19:08:57 · 699 阅读 · 0 评论 -
Hive简单分析练习
创建表(在Linux中打开hive) 三分数据:students.txt,score.txt,cource.txt students.txt cource.txt score.txt create table students( id bigint , name string , age int , gender string , clazz string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; crea原创 2021-09-25 21:39:57 · 924 阅读 · 0 评论 -
Hive笔记(四)数据倾斜原因及解决办法
Hive With as 用法Hive数据倾斜原因:表现:解决方案:Hive读写模式 Hive With as 用法 // 之前的写法 select t.id,t.name,t.clazz,t.score_id,t.score,c.subject_name from(select a.id,a.name,a.clazz,b.score_id,b.score from (select id,name,clazz from students) a left join ( select .原创 2021-10-08 19:21:50 · 515 阅读 · 0 评论 -
Hive笔记(三)常用函数(开窗函数、UDF、UDTF等)+hive shell
文章目录一、Hive 常用函数关系运算数值计算条件函数日期函数字符串函数二、Hive 中的wordCount三、Hive 开窗函数 `(重点)`测试数据建表语句row_number:无并列排名dense_rank:有并列排名,并且依次递增rank:有并列排名,不依次递增percent_rank:(rank的结果-1)/(分区内数据的个数-1)cume_dist:计算某个窗口或分区中某个值的累积分布。NTILE(n):对分区内数据再分成n组,然后打上组号max、min、avg、count、sum:基于每个pa原创 2021-09-29 19:27:21 · 834 阅读 · 0 评论