
hive
文章平均质量分 81
qq_23596677
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据仓库概念
转自:http://blog.youkuaiyun.com/zyj8170/article/details/52920021 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Supp...转载 2019-08-09 09:45:09 · 170 阅读 · 0 评论 -
hive四种文件格式
Hive文件格式 hive文件存储格式包括以下几类: 1、TEXTFILE 2、SEQUENCEFILE 3、RCFILE 4、ORCFILE(0.11以后出现) 其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理; SEQUENCEFILE,RCFILE,ORCFILE格式的表不能直接...转载 2019-08-07 15:39:24 · 628 阅读 · 0 评论 -
hive建表分层
http://bigdata.51cto.com/art/201710/554810.htm 一、文章主题 本文主要讲解数据仓库的一个重要环节:如何设计数据分层!其它关于数据仓库的内容可参考之前的文章。 本文对数据分层的讨论适合下面一些场景,超过该范围场景 or 数据仓库经验丰富的大神就不必浪费时间看了。 数据建设刚起步,大部分的数据经过粗暴的数据接入后就直接对接业务。 数据建设发展到一定阶段...转载 2019-08-14 15:59:20 · 2178 阅读 · 1 评论 -
hive数据倾斜调优
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 ...转载 2019-08-14 17:01:18 · 106 阅读 · 0 评论 -
hive中reducetask数量是怎么推算的
我们在使用Hive查询数据的时候经常会看到如下的输出: Query ID = iteblog_20160704104520_988f81d4-0b82-4778-af98-43cc1950d357Total jobs = 1Launching Job 1 out of 1Number of reduce tasks determined at compile time: 1In order ...转载 2019-08-14 17:16:19 · 1752 阅读 · 0 评论 -
etl详解
ETL讲解(很详细!!!) ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ...转载 2019-08-20 22:12:48 · 209 阅读 · 0 评论 -
分区分桶详解
create database if not exists myhive1; use myhive1; drop table if exists student; create table student(id int, name string, sex string ,age int, department string) row format delimited fields terminat...原创 2019-08-21 21:04:37 · 2998 阅读 · 0 评论