
hive
shangzhi_quan
有趣的灵魂万里无一,开启逗比的程序员,用文字记录工作中的问题和点滴,希望自己可以不回头的一直走下去!
展开
-
Hive--HiveQL与SQL区别
转载链接1.hive内联支持什么格式?2.分号字符注意什么问题?3.hive中empty是否为null?4.hive是否支持插入现有表或则分区中?5.hive是否支持INSERT INTO 表 values()?1、Hive不支持等值连接 •SQL中对两表内联可以写成:•select * from dual a,dual b where a.key = b.key;•Hive中应为•select ...转载 2018-05-14 09:03:16 · 353 阅读 · 0 评论 -
漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)
转载0x00 前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以Hive场景...转载 2018-06-04 09:59:27 · 983 阅读 · 0 评论 -
hive 插入列的问题
hive 添加列a,访问历史数据a全为null,遇到一个奇怪的问题:分区daytime=2013-12-16已经存在,用load data将数据加载进分区daytime=2013-12-16,select * from tb where daytime='2013-12-16' and a is not null limit 10; 结果为空;查hdfs发现daytime='2013-12-16'...转载 2018-05-16 08:45:09 · 1967 阅读 · 0 评论 -
Hive通过查询语句向表中插入数据注意事项
转载转载 2018-05-16 08:32:51 · 1143 阅读 · 0 评论 -
hive增加Update、Delete支持
转载一、配置hive-site.xml二、建表三、操作四、总结一、配置hive-site.xmlCDH版本先进入Hive配置页 选择高级,找到hive-site.xml 的 Hive 客户端高级配置代码段配置项 点击+号,增加如下配置项hive.support.concurrency = true hive.enforce.bucketing = true hive.exec.dynami...转载 2018-05-15 15:16:25 · 1758 阅读 · 0 评论 -
Hive中的桶表入门(适用于抽样查询)
1、基本概念 (1)桶表是对某一列数据进行哈希取值以将数据打散,然后放到不同文件中存储。 (2)在hive分区表中,分区中的数据量过于庞大时,建议使用桶。 (3)在分桶时,对指定字段的值进行hash运算得到hash值,并使用hash值除以桶的个数做取余运算得到的值进行分桶,保证每个桶中有数据但每个桶中的数据不一定相等。 做hash运算时,hash函数的选择取决于分桶字段的...转载 2018-05-15 15:12:30 · 1013 阅读 · 0 评论 -
Hive三种建表语句详解
转载注:hive其他语法在hive官网有说明,建议初学者,去官网学习一手的资料, 官网:https://cwiki.apache.org/confluence/display/Hive/Home#Home-UserDocumentationCreate Table官网说明Hive建表方式共有三种:直接建表法查询建表法like建表法首先看官网介绍 ‘[]’ 表示可选,’|’ 表示二选一CREATE ...转载 2018-05-15 08:49:12 · 8520 阅读 · 0 评论 -
在Hive中实现存储过程–HQL/SQL
Hive存储过程系列文章转载 2018-05-14 19:31:51 · 2217 阅读 · 0 评论 -
Hive开发要知道数据仓库的四个层次设计
数据仓库:数据仓库全面接收源系统数据,ETL进程对数据进行规范化、验证、清洗,并最终装载进入数据集市,通过数据集市支持系统进行数据查询、分析,整个数据仓库包含四大层次。 ETL(extractiontransformation loading)负责将分散的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中。ETL 是实施数据仓库的核心和灵魂,...转载 2018-05-08 08:43:56 · 583 阅读 · 0 评论 -
批量清理hive的分区数据,从指定的文件获取相关的参数
1.文件:table_config_order 内容如下test.tb_test_basic work_date 1,2 3 2018-04-25--- scheam.table 时间分区字段 每天都跑的处理方式 保留最近3天 数据时间分区存在起始时间2.文件:delete_partitions.sh 内容如下#!/bin/ba...原创 2018-05-07 23:25:12 · 1132 阅读 · 0 评论 -
Hadoop Hive sql语法详解4--DQL 操作:数据查询SQL
链接1.基本的Select 操作如何实现?2.基于Partition的查询如何实现?3.如何实现join,是否支持左连接,右连接?4.hive数据如何去重?5.ORDER BY 是否全局排序,只有一个Reduce任务?6.SORT BY 是否全局排序?7.hive是否支持exists?8.Hive不支持所有非等值的连接,为什么?1 基本的Select 操作SELECT [ALL | DISTINC...转载 2018-05-14 09:07:13 · 431 阅读 · 0 评论 -
大数据:Hive - ORC 文件存储格式
一、ORC File文件结构 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内进行按列存储。ORC文件是自描述的...转载 2018-06-04 10:36:58 · 345 阅读 · 0 评论