hive
文章平均质量分 57
王诗龄
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
WARN conf.HiveConf: DEPRECATED: Configuration property hive.metastore.local no l
警告信息:WARN conf.HiveConf: DEPRECATED: Configuration property hive.metastore.local no longer has any effect.Make sure to provide a valid value for hive.metastore.uris if you are connecting to a ...原创 2014-07-01 09:52:07 · 324 阅读 · 0 评论 -
hive 常用命令
1.hive通过外部设置参数传入脚本中: hive -hiveconf enter_school_date="20130902" -hiveconf min_ag="26" -f testvar.sql 脚本调用参数:use test; select * from student where pdate='${hiveconf:ente...原创 2014-07-17 22:22:47 · 183 阅读 · 0 评论 -
HiveServer2连接ZooKeeper出现Too many connections问题的解决
HiveServer2连接ZooKeeper出现Too many connections问题的解决作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息网址: http://www.cnblogs.com/panfeng412/archive/2013/03/23/hiveserver2-too-many-zookeeper-connections-issues...原创 2014-07-24 08:49:28 · 988 阅读 · 0 评论 -
hive自定义InputFormat
自定义分隔符package com.lwz.inputf;import java.io.IOException; import java.io.InputStream;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import or...原创 2014-07-25 09:13:24 · 770 阅读 · 0 评论 -
hive udaf
package com.lwz.udaf;import org.apache.hadoop.hive.ql.exec.UDAF;import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;//1.此函数区分一条记录的方法,如果没有group by和where的检索,那么整个表的数据都会被作为一条数据,从而只会init()一次//然后再...原创 2014-07-25 16:11:20 · 179 阅读 · 0 评论 -
hive数据的导出
在本博客的《Hive几种数据导入方式》文章中,谈到了Hive中几种数据的导入方式,不同的数据导入方式用途不一样。今天我们再谈谈Hive中的几种不同的数据导出方式。可以根据导出的地方不一样,将这些方式分为三种:(1)、导出到本地文件系统;(2)、导出到HDFS中;(3)、导出到Hive的另一个表中。为了避免单纯的文字,我将一步一步地用命令进行说明。 一、导出到本地文件系统 h...原创 2014-07-28 21:53:23 · 154 阅读 · 0 评论 -
hive lateral view
通过Lateral view可以方便的将UDTF得到的行转列的结果集合在一起提供服务。因为直接在SELECT使用UDTF会存在限制,即仅仅能包含单个字段,如下:hive> select my_test(“abcef:aa”) as qq,my_test(“abcef:aa”) as ww from sunwg01;FAILED: Error in semantic analysis...原创 2014-08-09 14:59:31 · 261 阅读 · 0 评论 -
hive 内置函数
1.sort_array():sort_array(array(obj1, obj2,...)) - Sorts the input array in ascending order according to the natural ordering of the array elements.Example: >SELECT sort_array(array('b', 'd', '...原创 2014-08-11 09:06:07 · 713 阅读 · 0 评论 -
HIVE 窗口及分析函数
HIVE 窗口及分析函数 使用场景www.MyException.Cn 发布于:2013-07-20 11:07:48 浏览:49次 1HIVE 窗口及分析函数 应用场景窗口函数应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询 一、分析函数用于等级、百分点、n分片等。函数 说明RANK...原创 2014-08-11 16:21:13 · 131 阅读 · 0 评论 -
hive 在mysql中创建备用数据库
修改hive-site.xml javax.jdo.option.ConnectionURL jdbc:mysql://vmtmstorm01:3306/hive2?useUnicode=true&characterEncoding=UTF-8 javax.jdo.option.ConnectionDriverName com.m...原创 2014-08-15 09:21:52 · 293 阅读 · 0 评论 -
hive 压缩策略
Hive使用的是Hadoop的文件系统和文件格式,比如TEXTFILE,SEQUENCEFILE等。 在Hive中对中间数据或最终数据数据做压缩,是提高数据吞吐量和性能的一种手段。对数据做压缩,可以大量减少磁盘的存储空间,比如基于文本的数据文件, 可以将文件压缩40%或更多,同时压缩后的文件在磁盘间传输和I/O也会大大减少;当然压缩和解压缩也会带来额外的CPU开销,但是却可以...原创 2014-08-15 15:16:29 · 210 阅读 · 0 评论 -
hive map和reduce的控制
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有...原创 2014-08-15 16:14:24 · 158 阅读 · 0 评论 -
Hive 中内部表与外部表的区别与创建方法
分类: Hive 2013-12-07 11:56 1806人阅读 评论(0) 收藏 举报先来说下Hive中内部表与外部表的区别: Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径, 不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除, 而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也...原创 2014-08-15 17:11:01 · 181 阅读 · 0 评论 -
explain hive index
设置索引:使用聚合索引优化groupby操作hive> set hive.optimize.index.groupby=false;自动使用索引hive> set hive.optimize.index.filter=true; 设置自动使用索引的最小输入字节数hive>set hive.optimize.index.fil...原创 2014-08-24 16:44:01 · 165 阅读 · 0 评论 -
深入了解Hive Index具体实现
索引是标准的数据库技术,hive 0.7版本之后支持索引。hive索引采用的不是'one size fites all'的索引实现方式,而是提供插入式接口,并且提供一个具体的索引实现作为参考。Hive的Index接口如下:复制代码public interface HiveIndexHandler extends Configurable { /** * Determine...原创 2014-08-25 08:51:08 · 229 阅读 · 0 评论 -
hive 分通总结
总结分析:1. 定义了桶,但要生成桶的数据,只能是由其他表通过insert into 或是insert overwrite ,若表有分区只能使用insert overwrite 2. 定义桶可以使用整型字段或是string类型字段3. 若表没有定义桶也可以进行随机抽样4. 必须先set hive.enforce.bucketing = true才可以将数据正常写入...原创 2014-08-27 08:42:15 · 235 阅读 · 0 评论 -
CouderaHadoop中hive的Hook扩展
最近在做关于CDH4.3.0的hive封装,其中遇到了很多问题!其中最困难的是如何在不更改源代码的情况下动态获取jobId! 在项目进行的过程中,我们尝试了很多方式!在尝试的过程中虽然也有很多失败,但对于理解hive的内部机制也更一步的认识,我这里想说的是自定义扩展hook! 在CDH版本的hive中提供了很多hook,俗称钩子函数!这样我们可以通过自定义hook,来...原创 2014-07-16 21:18:58 · 793 阅读 · 0 评论 -
利用SemanticAnalyzerHook回过滤不加分区条件的Hive查询
我们Hadoop集群中将近百分之80的作业是通过Hive来提交的,由于Hive写起来简单便捷,而且我们又提供了Hive Web Client,所以使用范围很广,包括ba,pm,po,sales都在使用hive进行ad-hoc查询,但是hive在降低用户使用门槛的同时,也使得用户经常写不合理开销很大的语句,生成了很多的mapreduce job,占用了大量slot数,其中最典型的例子就是分区表查询,...原创 2014-07-16 16:43:38 · 363 阅读 · 0 评论 -
hive 授权
Hive授权(Security配置)博客分类: Hive分享 摘:https://cwiki.apache.org/Hive/languagemanual-auth.html https://cwiki.apache.org/Hive/authdev.html http://grokbase.com/t/hive/user/11aksphhas...原创 2014-07-15 10:51:04 · 1454 阅读 · 0 评论 -
hive外部表建立时出现的问题
1:刚刚研究hive,遇到一个很迷糊的问题,我想load hadoop下的a.txt文件,将这些数据导入到/user/hive/warehouse/下的testHiveDriverTable表中,只想导入数据,不想移动该文件。 2但是每次运行后,该文件都会自动的移动到/user/hive/warehouse/下。我看教程说,建立外部表的话,就不会移动hdfs上的文件位置,但是这些我都尝试了,还...原创 2014-07-01 16:46:12 · 616 阅读 · 0 评论 -
hive参数的意义
第一部分:Hive 参数 hive.exec.max.created.files •说明:所有hive运行的map与reduce任务可以产生的文件的和 •默认值:100000 hive.exec.dynamic.partition •说明:是否为自动分区 •默认值:false hive.mapred.reduce.tasks.speculative.execution ...原创 2014-07-01 16:48:17 · 219 阅读 · 0 评论 -
derby 的配置及jdbc连接
hive-default.xml javax.jdo.option.ConnectionURL jdbc:derby:;databaseName=metastore_db;create=true 表示使用嵌入式的derby,create为true表示自动创建数据库,数据库名为metastore_db 表示使用客服模式的derby,hadoopor为数据库名,192....原创 2014-07-02 10:32:43 · 2520 阅读 · 0 评论 -
Hive metastore三种配置方式
Hive的meta数据支持以下三种存储方式,其中两种属于本地存储,一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式,链接为:Hive Metastore。 一、本地derby这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可[html] view plaincopyprint? ...原创 2014-07-02 14:00:46 · 153 阅读 · 0 评论 -
hive初始化、处理流程详解
CliDriver 初始化过程 CliDriver.main 是 Cli 的入口 (1) 解析(Parse)args,放入cmdLine,处理 –hiveconf var=val 用于增加或者覆盖hive/hadoop配置,设置到System的属性中。 (2) 配置log4j,加载hive-log4j.properties里的配置信息。 (3)创建一个HiveC...原创 2014-07-03 15:05:08 · 1327 阅读 · 0 评论 -
hive元数据和mysql表的对应
Hive元数据解析 本文是笔者初步整理的Hive元数据表,有不准确的地方请轻拍,后续我会补充.1. Hive 0.11 元数据表汇总线上Hive 0.11 metastore包括下述39个表,主要分为以下几类 : Database相关 Table相关 数据存储相关SDS COLUMN相关 SERDE相关(序列化) P...原创 2014-07-04 15:42:55 · 524 阅读 · 0 评论 -
hive sql优化(全排序,笛卡尔积,exist in,决定reducer个数,合并MapReduce)
hive 全排序 优化分类: hive hadoop hadoop 2013-01-28 20:11 717人阅读 评论(0) 收藏 举报hive hadoop目录(?)[+]使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下,因为不熟悉数据特性,或没有遵循Hive的优化约定,Hive计算任务会变得非常低效,甚至无法得到结果。一个”好”的Hive程...原创 2014-07-06 14:03:03 · 1602 阅读 · 0 评论 -
hive的学习线路
http://blog.fens.me/hadoop-hive-roadmap/原创 2014-07-06 21:20:50 · 136 阅读 · 0 评论 -
hive执行流程入口 源码入口
图片地址 :http://hi.youkuaiyun.com/attachment/201107/29/0_1311922740tXqK.gifCliDriver可以说是hive的入口,对应上图中的UI部分。大家看它的结构就可以明白了,main()函数!对!你猜的没错就是从main()开始。下图是类结构,总共有五个关键的函数。这个类可以说是用户和hive交互的平台,你可以把它认为是hive客户...原创 2014-07-07 10:16:13 · 499 阅读 · 0 评论 -
hive内连接和左半链接不一致的问题
一、理论HIVE中都是按等值连接来统计的,理论上两种写法统计结果应该是一致的;二、实际情况但实际使用中发现两种写法会返回的结果,总会有一些差距虽然差别不大,但让人很是困惑。三、原因当使用join on的时候,如果右表有重复数据就会关联更多的数据,因为它们都符合join on上的条件;而使用left semi join的时候,当join左侧表中的记录在...原创 2014-07-08 12:22:49 · 203 阅读 · 0 评论 -
hive常用设置参数
hadoop 常用参数整理 (2013-01-16 15:06:22)转载▼标签: 杂谈 分类: hadoophadoop 版本1.03hadoop.tmp.dir ---> mapred-site.xml默认值: /tmp说明: 尽量手动配置这个选项,否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候,如果服务器是多磁盘的,每个磁盘都设置一个临时文件...原创 2014-07-08 14:49:18 · 363 阅读 · 0 评论 -
hive的常见问题
1. org.apache.thrift.transport.TTransportException: Could not create ServerSocket on address 0.0.0.0/0.0.0.0:10000问题:hive --service hiveserver 启动hiveserver服务解决方法:端口被占用 ,kill 该端口进程或者重新制定端口 h...原创 2014-07-09 11:36:21 · 432 阅读 · 0 评论 -
hive并发问题
Hive 并发模型使用案例并发支持 (http://issues.apache.org/jira/browse/HIVE-1293) 是数据库的必须,而且他们的使用案例很好懂。至少,我们要尽可能支持并发读和写。添加几个发现当前已经锁定的锁,是有用的。这里没有一个直接的需求添加一个API显式获取锁,所以,所有锁都是隐式获取的。hive定义一下模式的锁(注意不需要意向锁)共享 ...原创 2014-07-09 20:00:14 · 2227 阅读 · 0 评论 -
hive静态分区和动态分区的特点
hive中的静态分区与动态分区分类: hadoop+hive+hbase 2012-03-15 10:45 2532人阅读 评论(0) 收藏 举报mapreducedateinserttablejobsinputhive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段,而是一个或者多个伪列。意思是说在表的数据文件中实...原创 2014-07-09 22:17:28 · 1128 阅读 · 0 评论 -
hive + hbase
环境配置:hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node)hbase-0.94.6-cdh4.3.0 (4 nodes,maxHeapMB=9973/node)hive-0.10.0-cdh4.3.0 一、查询性能比较: query1: select count(1) from on...原创 2015-01-04 10:42:11 · 218 阅读 · 0 评论 -
hive 数据倾斜
链接:http://www.alidata.org/archives/2109数据倾斜总结 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。H...原创 2014-08-27 09:03:54 · 115 阅读 · 0 评论
分享