- 博客(21)
- 资源 (3)
- 收藏
- 关注
转载 大数据:Hive - ORC 文件存储格式
一、ORC File文件结构 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内进行按列存储。ORC文件是自描述的...
2018-06-04 10:36:58
343
转载 漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)
转载0x00 前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以Hive场景...
2018-06-04 09:59:27
977
转载 拉链表
在数据仓库的数据模型设计过程中,经常会遇到这样的需求:1. 数据量比较大;2. 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等;3. 需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态, 比如,查看某一个用户在过去某一段时间内,更新过几次等等;4. 变化的比例和频率不是很大,比如,总共有1000万的会员,每天新增和发生变化的...
2018-06-04 08:34:37
292
转载 ETL DataStage实现
转载第1章 前言自开始知道数据库,就知道有数据仓库这个东西,数据仓库中一关键环节就是ETL。可是三四年过去了,由于没有接触数据仓库这个东西,对ETL自然是一知半解,更别提实现了。从2007年9月份开始,要做数据仓库项目了,接触了ETL。ETL中要用DS实现,项目中没有人会,组长要我一个月内,边工作边自学DS,然后给大家讲怎么用DS实现ETL。想起初学时的困难和迷惑,和现在一些同学的疑问,本人从开...
2018-05-31 09:46:20
2103
转载 DataStage(ETL)技术总结 -- 介绍篇
转载 数据整合的核心内容是从数据源中抽取数据,然后对这些数据进行转化,最终加载的目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL 过程(Extract,Transform, Load)。 IBM WebSphere DataStage(下面简称为DataStage)为整个 ETL 过程提供了一个图形化的开发环境,它是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动...
2018-05-31 09:25:56
1453
转载 impala-kudu相关问题经验总结
今天在hue上执行数据的重新导入:1、删除原先的kudu表:drop table events_tab_2;2、需要在impala里创建kudu新表:CREATE TABLE events_tab_2( user_id STRING , item_id STRING , create_time BIGINT , col_1 STRING , col_12 STRING , ...
2018-05-16 20:45:33
418
转载 hive 插入列的问题
hive 添加列a,访问历史数据a全为null,遇到一个奇怪的问题:分区daytime=2013-12-16已经存在,用load data将数据加载进分区daytime=2013-12-16,select * from tb where daytime='2013-12-16' and a is not null limit 10; 结果为空;查hdfs发现daytime='2013-12-16'...
2018-05-16 08:45:09
1966
转载 hive增加Update、Delete支持
转载一、配置hive-site.xml二、建表三、操作四、总结一、配置hive-site.xmlCDH版本先进入Hive配置页 选择高级,找到hive-site.xml 的 Hive 客户端高级配置代码段配置项 点击+号,增加如下配置项hive.support.concurrency = true hive.enforce.bucketing = true hive.exec.dynami...
2018-05-15 15:16:25
1757
转载 Hive中的桶表入门(适用于抽样查询)
1、基本概念 (1)桶表是对某一列数据进行哈希取值以将数据打散,然后放到不同文件中存储。 (2)在hive分区表中,分区中的数据量过于庞大时,建议使用桶。 (3)在分桶时,对指定字段的值进行hash运算得到hash值,并使用hash值除以桶的个数做取余运算得到的值进行分桶,保证每个桶中有数据但每个桶中的数据不一定相等。 做hash运算时,hash函数的选择取决于分桶字段的...
2018-05-15 15:12:30
1010
转载 CDH5离线集群搭建--绿色简单
转离线安装CM5和CDH5.13完全教程2017年11月15日 14:43:36阅读数:3719安装过程较为详细,需要安装的同学可以好好查看 —关于CDH和Cloudera ManagerCDH (Cloudera’s Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,...
2018-05-15 08:52:46
306
转载 Hive三种建表语句详解
转载注:hive其他语法在hive官网有说明,建议初学者,去官网学习一手的资料, 官网:https://cwiki.apache.org/confluence/display/Hive/Home#Home-UserDocumentationCreate Table官网说明Hive建表方式共有三种:直接建表法查询建表法like建表法首先看官网介绍 ‘[]’ 表示可选,’|’ 表示二选一CREATE ...
2018-05-15 08:49:12
8514
转载 Hadoop Hive sql语法详解4--DQL 操作:数据查询SQL
链接1.基本的Select 操作如何实现?2.基于Partition的查询如何实现?3.如何实现join,是否支持左连接,右连接?4.hive数据如何去重?5.ORDER BY 是否全局排序,只有一个Reduce任务?6.SORT BY 是否全局排序?7.hive是否支持exists?8.Hive不支持所有非等值的连接,为什么?1 基本的Select 操作SELECT [ALL | DISTINC...
2018-05-14 09:07:13
427
转载 Hive--HiveQL与SQL区别
转载链接1.hive内联支持什么格式?2.分号字符注意什么问题?3.hive中empty是否为null?4.hive是否支持插入现有表或则分区中?5.hive是否支持INSERT INTO 表 values()?1、Hive不支持等值连接 •SQL中对两表内联可以写成:•select * from dual a,dual b where a.key = b.key;•Hive中应为•select ...
2018-05-14 09:03:16
352
转载 kudu1.5.0新特性
New features1、tablet servers现在在启动的时候可以容忍磁盘故障,这个功能是实验性,默认情况下,如果遇到磁盘故障,Kudu将崩溃。如果启用,在磁盘上有任何数据的tablet都不会打开和在需要的时候会进行副本的复制,启动此功能, 设置 –suicide_on_eio flag to false,另外,可配置的权衡,在新添加的tablet对磁盘故障的容忍,它的并行化IO通过 –...
2018-05-10 11:30:53
309
转载 内连接和等值连接的区别
内连接就是满足连接条件的结果集,这是相对于外连接而言。 外连接即使找不到满足条件的记录,另一方的记录还是要输出INNER JOIN可以不等:select * from t1 inner join t2 on t1.id<>t2.id; 从集合论角度看:等值连接是内连接的子集.转载 ...
2018-05-10 10:19:26
5130
转载 sql内连接中,等值连接与自然连接的区别
1. 等值连接中不要求相等属性值的属性名相同,而自然连接要求相等属性值的属性名必须相同,即两关系只有在同名属性才能进行自然连接。如上例R中的C列和S中的D列可进行等值连接,但因为属性名不同,不能进行自然连接。 2. 等值连接不将重复属性去掉,而自然连接去掉重复属性,也可以说,自然连接是去掉重复列的等值连接。如上例R中的B列和S中的B列进行等值连接时,结果有两个重复的属性列B,而进行自然连接时...
2018-05-10 09:20:21
4496
转载 Hive开发要知道数据仓库的四个层次设计
数据仓库:数据仓库全面接收源系统数据,ETL进程对数据进行规范化、验证、清洗,并最终装载进入数据集市,通过数据集市支持系统进行数据查询、分析,整个数据仓库包含四大层次。 ETL(extractiontransformation loading)负责将分散的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中。ETL 是实施数据仓库的核心和灵魂,...
2018-05-08 08:43:56
582
原创 bash中` ` |' '| " "的区别
在bash里,‘’“”都可以用来表示字符串,区别是双引号中变量被赋值了,而单引号是字符串本身,·` `反引号,内一般放的是bash的命令,将命令的结果赋值给一个变量。如下:a="abc"b=`pwd`echo "string=$a" # 结果显示 string=abcecho 'string=$a' # 结果显示string=$aecho 'string=$b' # 结果显示 strin...
2018-05-07 23:38:23
15277
1
原创 批量清理hive的分区数据,从指定的文件获取相关的参数
1.文件:table_config_order 内容如下test.tb_test_basic work_date 1,2 3 2018-04-25--- scheam.table 时间分区字段 每天都跑的处理方式 保留最近3天 数据时间分区存在起始时间2.文件:delete_partitions.sh 内容如下#!/bin/ba...
2018-05-07 23:25:12
1129
mysql 驱动jar包-5.1.46
2018-05-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人