自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

转载 ETL介绍

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。   ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ET...

2018-09-28 17:13:00 86

转载 Hive(七)Hive分析窗口函数

一数据准备 cookie1,2015-04-10,1 cookie1,2015-04-11,5 cookie1,2015-04-12,7 cookie1,2015-04-13,3 cookie1,2015-04-14,2 cookie1,2015-04-15,4 cookie1,2015-04-16,4 创建数据库及表 create database i...

2018-09-27 15:49:00 112

转载 Hive(九)Hive 执行过程实例分析

一、Hive 执行过程概述 1、概述 (1) Hive 将 HQL 转换成一组操作符(Operator),比如 GroupByOperator, JoinOperator 等 (2)操作符 Operator 是 Hive 的最小处理单元 (3)每个操作符代表一个 HDFS 操作或者 MapReduce 作业 (4)Hive 通过 ExecMapper 和 ExecReducer...

2018-09-27 15:42:00 102

转载 Hive(八)Hive的Shell操作与压缩存储

一、Hive的命令行 1、Hive支持的一些命令 Command Description quitUse quit or exit to leave the interactive shell. set key=valueUse this to set value of particular configuration variable. One thing to n...

2018-09-27 15:41:00 294

转载 Hive(六)内置函数与高级操作

一内置函数 1 数学函数 Return Type Name (Signature) Description DOUBLE round(DOUBLE a) Returns the roundedBIGINTvalue ofa. 返回对a四舍五入的BIGINT值 ...

2018-09-27 15:40:00 289

转载 Hive(五)数据类型与库表操作以及中文乱码

一、数据类型 1、基本数据类型 Hive 支持关系型数据中大多数基本数据类型 类型描述示例 boolean true/false TRUE tinyint 1字节的有符号整数 -128~127 1Y smallint 2个字节的有符号整数,-32768~32767 1S int 4个字节的带符号整数 1 ...

2018-09-27 15:39:00 341

转载 Hive(三)Hive元数据信息对应MySQL数据库表

概述 Hive 的元数据信息通常存储在关系型数据库中,常用MySQL数据库作为元数据库管理。上一篇hive的安装也是将元数据信息存放在MySQL数据库中。 Hive的元数据信息在MySQL数据中有57张表 一、存储Hive版本的元数据表(VERSION) VERSION -- 查询版本信息 该表比较简单,但很重要。 VER_ID SCHEMA_VE...

2018-09-27 15:37:00 285

转载 Hive(二)CentOS7.5安装Hive2.3.3

一 Hive的下载 软件下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hive/这里下载的版本是:apache-hive-2.3.3-bin.tar.gz 官方安装配置文档:https://cwiki.apache.org/confluence/display/Hive/GettingStarted 二 Hive单用户安...

2018-09-27 15:36:00 171

转载 Hive(一)Hive初识

一 Hive 简介 什么是Hive 1、Hive 由 Facebook 实现并开源 2、是基于 Hadoop 的一个数据仓库工具 3、可以将结构化的数据映射为一张数据库表 4、并提供 HQL(Hive SQL)查询功能 5、底层数据是存储在 HDFS 上 6、Hive的本质是将 SQL 语句转换为 MapReduce 任务运行 7、使不熟悉 MapReduce 的用户很方...

2018-09-27 15:35:00 125

转载 Hive(十)Hive性能调优总结

一、Fetch抓取 1、理论分析 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。 在hive-default.xml.template文件中hive.fetch.task.conv...

2018-09-27 14:59:00 150

转载 HIVE表数据的导入与导出(load data&insert overwrite)

1. 准备测试数据 首先创建普通表: create table test(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; 创建分区表: CREATE EXTERNAL TABLE test_p( id int, name string ...

2018-09-27 14:34:00 655

转载 介质资源库

1.大数据   1.1Apache介质资源库 Apache Software Foundation Distribution Directory     http://archive.apache.org/dist/   1.2Hadoop官网     https://hadoop.apache.org/   1.3 Hadoop CDH发行版介质资源库     http...

2018-09-27 09:28:00 162

转载 Hive性能优化

1.概述   继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。 2.介绍   首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关...

2018-09-20 14:38:00 84

转载 Hive基本操作

1.概述   上一章《那些年使用Hive踩过的坑》介绍了Hive的基本架构及原理,加下来介绍Hive的基本操作和一些注意事项。 2.基本操作 2.1Create Table 2.1.1介绍  CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXIST 选项来忽略这个异常。  EXTERNAL 关键字可以让...

2018-09-20 14:37:00 73

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除