
Hive
文章平均质量分 54
「已注销」
这个作者很懒,什么都没留下…
展开
-
设置hive的环境变量
$ sudo echo "export HIVE_HOME=$PWD/hive-0.9.0" > /etc/profile.d/hive.sh$ sudo echo "PATH=$PATH:$HIVE_HOME/bin >> /etc/profile.d/hive.sh$ . /etc/profile原创 2012-10-22 11:22:35 · 4105 阅读 · 0 评论 -
【hive】hive优化官网地址
hive官网https://cwiki.apache.org/confluence/display/Hive/Roadmaphttps://cwiki.apache.org/confluence/display/Hive/Presentations原创 2013-05-29 01:51:39 · 7738 阅读 · 0 评论 -
【hive】hive的查询注意事项以及优化总结
一、控制Hive中Map和reduce的数量Hive中的sql查询会生成执行计划,执行计划以MapReduce的方式执行,那么结合数据和集群的大小,map和reduce的数量就会影响到sql执行的效率。除了要控制Hive生成的Job的数量,也要控制map和reduce的数量。1、 map的数量,通常情况下和split的大小有关系,之前写的一篇blog“map和reduc转载 2013-05-29 01:46:54 · 5848 阅读 · 0 评论 -
【hive】How to use Elephant Bird with Hive
转载 :https://github.com/kevinweil/elephant-bird/wiki/How-to-use-Elephant-Bird-with-HiveOverviewLet's quickly remind ourselves how Hive reads records so we understand how Elephant-Bird fits转载 2013-06-11 08:22:07 · 1915 阅读 · 0 评论 -
【hive】Hive-0.5中SerDe概述
一、背景1、当进程在进行远程通信时,彼此可以发送各种类型的数据,无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输,称为对象序列化;接收方则需要把字节序列恢复为对象,称为对象的反序列化。2、Hive的反序列化是对key/value反序列化成hive table的每个列的值。3、Hive可以方便的将数据加载到表中而不需要对数据进行转转载 2013-06-11 07:54:07 · 970 阅读 · 0 评论 -
【hive】How-to: Use a SerDe in Apache Hive
转载:http://blog.cloudera.com/blog/2012/12/how-to-use-a-serde-in-apache-hive/How-to: Use a SerDe in Apache Hiveby Jon NatkinsDecember 21, 2012no commentsApache Hive is a转载 2013-06-11 07:52:53 · 2078 阅读 · 0 评论 -
hive网站资料
http://www.lofter.com/tag/hive原创 2013-06-17 14:08:22 · 906 阅读 · 0 评论 -
【hive】pentaho无法查询hive
I using table input step in that I am using Hadoop Hive connection type to connect to hadoop database. i am able to see table list but after selecting table I am unable to fetch fields from table and转载 2013-06-21 14:02:19 · 3333 阅读 · 1 评论 -
Hadoop 中的两表join
作为数据分析中经常进行的join 操作,传统DBMS 数据库已经将各种算法优化到了极致,而对于hadoop 使用的mapreduce 所进行的join 操作,去年开始也是有各种不同的算法论文出现,讨论各种算法的适用场景和取舍条件,本文讨论hive 中出现的几种join 优化,然后讨论其他算法实现,希望能给使用hadoop 做数据分析的开发人员提供一点帮助. Facebook 今年在yaho转载 2014-08-20 12:04:41 · 840 阅读 · 0 评论 -
hive性能优化
一、join优化Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个ma转载 2014-08-20 14:13:04 · 665 阅读 · 0 评论 -
Hive性能调校
Hive性能调校 ---提高Hive总体性能的若干技巧 刘宗全 2012-12-20 本报告主要就如何提高Hive执行的总体性能进行了调研,下面以分条的形式列举出来。 1. 设置hive.map.aggr=true,提高HiveQL聚合的执行性能。这个设置可以将顶层的聚合操作放在Map阶段执行,从而减轻清洗阶段数据传输和Reduce阶段的执行时间,提升总体性能。 缺点:转载 2014-08-20 14:15:54 · 892 阅读 · 0 评论 -
hive优化
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。 理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜。 2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小转载 2014-08-20 14:16:41 · 826 阅读 · 0 评论 -
Hive调优实战
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时转载 2014-08-13 06:23:12 · 664 阅读 · 0 评论 -
Hive 查询优化总结
一、join优化Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个ma转载 2014-08-13 06:24:08 · 758 阅读 · 0 评论 -
hive语句优化-通过groupby实现distinct
同事写了个hive的sql语句,执行效率特别慢,跑了一个多小时程序只是map完了,reduce进行到20%。该Hive语句如下:select count(distinct ip) from (select ip as ip from comprehensive.f_client_boot_daily where year="2013" and month="10" uni转载 2014-11-25 22:23:44 · 924 阅读 · 0 评论 -
【hive】hive优化
最近使用hive一个多月下来(终于完成第一期数据分析迁移工作了),当时使用的0.8的版本(现在最新版本是0.8.1),一个多月下来收获很多。从安装环境、调试、开发、业务理解、技术攻关、业务实现等,一一都体验了一把!总的来说,除了目前网上所介绍的常规hive使用和优化外。因为目前hive只支持0.20的相关版本,所以我们的环境还是使用的0.20版本的hadoop来进行搭建。转载 2013-05-29 01:43:09 · 988 阅读 · 0 评论 -
【hive】hive估算reduce
hive估算reduce的逻辑如下:(1) 判断Job是否需要reduce操作,如不需要reduce操作,reduce数设置为0,跳出;如需要reduce操作,执行步骤(2);(2) 判断Job是否在编译时确定reduce数为1,如编译确定为1,reduce数设置为1,跳出;如需要reduce操作,执行步骤(3);(3) 判断Job是否手动设置red转载 2013-05-29 01:43:47 · 1139 阅读 · 0 评论 -
【hive】hive的数据格式介绍
textfilesequencefilercfileavro自定义 TEXTFIEL默认格式,数据不做压缩,磁盘开销大,数据解析开销大。可结合Gzip、Bzip2使用(系统自动检查,执行查询时自动解压),但使用这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作。> create table test1(str转载 2013-05-29 01:38:37 · 1591 阅读 · 0 评论 -
hive优化的几篇博文
http://blog.sina.com.cn/s/blog_4112736d01017sjw.htmlhttp://zelfendo.sinaapp.com/2011/12/13/hive-tips/http://blog.youkuaiyun.com/chenyi8888/article/details/7254103转载 2012-10-21 12:06:06 · 1475 阅读 · 0 评论 -
hive 常用命令
1. $ hive -S -e "set" | grep warehousehive.metastore.warehouse.dir=/user/hive/warehousehive.warehouse.subdir.inherit.perms=false2. hive -S -e "select * FROM mytable LIMIT 3" > /tmp/myquery3.hi原创 2012-10-22 14:04:26 · 2006 阅读 · 0 评论 -
hive数据类型和文件格式
1. Hive supports columns that are structs, maps, and arrays.2. CREATE TABLE employees (nameSTRING,salaryFLOAT,subordinates ARRAY,deductions MAP,addressSTRUCT)ROW FORMAT DELIMITED原创 2012-10-22 14:24:37 · 2042 阅读 · 0 评论 -
hive数据定义
1. Hive offers no support for row-level inserts, updates, and deletes. Hive doesn’t support transactions. Hive adds ex-tensions to provide better performance in the context of Hadoop and to integr原创 2012-10-22 15:00:35 · 891 阅读 · 0 评论 -
hive数据操纵
1. Hive does not verify that the data you are loading matches the schema for the table.However, it will verify that the file format matches the table definition. For example,if the table was creat原创 2012-10-22 15:14:05 · 719 阅读 · 0 评论 -
hive查询语言
1. The ORDER BY clause is familiar from other SQL dialects. It performs a total ordering ofthe query result set. This means that all the data is passed through a single reducer,which may take an u原创 2012-10-22 17:00:25 · 835 阅读 · 0 评论 -
将Hive Thrift server 添加到服务后台运行
1. 将hive 的metastore用mysql连接储存2 在/etc/init.d/文件夹中编辑文件hive-thrift #!/bin/bash # init script for Hive Thrift Interface. # # chkconfig: 2345 90 10 # description: Hive Thrift Interface # Sourc转载 2012-11-02 17:08:54 · 1405 阅读 · 0 评论 -
系统增加对hiveserver的负载均衡及单个server挂掉的保障
转载: http://blog.youkuaiyun.com/wf1982/article/details/7087101前期,dip-data-analyze 实现了线上的基本功能,这段时间,随着本部门及其他部门在上面跑任务增多,对hiveserver使用并发要求越来越高。之前碰到过很多次 hiveserver发生stackoverflow问题,发生该问题后,hive转载 2012-11-02 17:09:37 · 1005 阅读 · 0 评论 -
hive server监控程序
#!/usr/bin/env pythonimport sys, os, time, atexit, stringfrom signal import SIGTERMclass Daemon: def __init__(self, pidfile, stdin='/dev/null', stdout='/dev/null', stderr='/dev/null'):转载 2012-11-05 11:18:55 · 1881 阅读 · 0 评论 -
java和python相互调用
1. 用Jython调用Java类库 第一步、创建Java类 写一个简单的Java类,用Point来示例: Java代码 import org.python.core.*; public class Point extends PyObject { private int x; private i转载 2012-12-26 15:28:32 · 3373 阅读 · 0 评论 -
python远程访问hive
#!/usr/bin/pythonimport syssys.path.append('/home/zhoujie/Downloads/hive-0.7.0-cdh3u0/lib/py')from hive_service import ThriftHivefrom hive_service.ttypes import HiveServerExceptionfrom thrift imp原创 2012-11-05 10:44:59 · 3056 阅读 · 2 评论 -
【hive】写好hive程序的五个启示
使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下,因为不熟悉数据特性,或没有遵循Hive的优化约定,Hive计算任务会变得非常低效,甚至无法得到结果。一个”好”的Hive程序仍然需要对Hive运行机制有深入的了解。有一些大家比较熟悉的优化约定包括:Join中需要将大表写在靠右的位置;尽量使用UDF而不是transfrom……诸如此类。下面讨论5个性能和逻辑相关转载 2013-05-25 09:54:10 · 1170 阅读 · 0 评论 -
【hive】hive的扩展特性
转载:http://www.alidata.org/archives/604Hive 是一个很开放的系统,很多内容都支持用户定制,包括:文件格式:Text File,Sequence File内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text用户提供的 map/reduce 脚本:不管什么语言,利用 stdin/st转载 2013-05-25 09:57:29 · 1125 阅读 · 0 评论 -
【hive】如何获取hive建表语句(转载)
说明:本文转载自http://www.imphrack.com/?p=21 DWer 谢谢原创作者分享!该脚本是基于hive0.4.2版本,现在最新的0.8.1版本 hive元数据库已经有过些许改变。需要要将脚本中表名COLUMNS修改为COLUMNS_V2,字段SD_ID修改成CD_ID 。 要想还原建表DDL就必须从元数据入手,我们知道,hive的元数据并转载 2013-05-25 15:28:19 · 4427 阅读 · 2 评论 -
【hive】Hive基础及效率优化
阅读这篇文章后,会对hive 与 map/reduce有基本了解,并掌握简单的优化方法一、Hive map reduce个数优化Map的个数是怎么产生的主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);如:1)假转载 2013-05-29 01:37:08 · 1285 阅读 · 0 评论 -
Hive 的 distribute by
Order by 能够预期产生完全排序的结果,但是它是通过只用一个reduce来做到这点的。所以对于大规模的数据集它的效率非常低。在很多情况下,并不需要全局排序,此时可以换成Hive的非标准扩展sort by。Sort by为每个reducer产生一个排序文件。在有些情况下,你需要控制某个特定行应该到哪个reducer,通常是为了进行后续的聚集操作。Hive的distribute by 子句可以做转载 2014-11-25 23:09:00 · 983 阅读 · 0 评论