
Hive
文章平均质量分 84
superxgl
这个作者很懒,什么都没留下…
展开
-
MapBalanceReduce介绍
目的:1、从根本上解决reduce时的数据倾斜问题2、从根本上解决基于优先级的并发调度问题Map-Balance-Reduce (简称MBR)是在现有Map-Reduce模型基础之上的改进,以从根本上解决reduce倾斜问题,不用预先分析KEY的分布,编程接口在map和reduce之外,增加balance,但是只有在不均衡的时候balance才会被调用到。 如果某个Split大于设定的值,则再分割,如果某个Split小于指定的值,则和其它的合并(只需要逻辑上的合并,不需要物理上合并,这样对性能不会有影响)。转载 2010-08-13 10:06:00 · 546 阅读 · 0 评论 -
group by 和Having
GROUP BY 是分组查询, 一般 GROUP BY 是和 聚合函数配合使用,你可以想想 你用了GROUP BY 按 ITEM.ITEMNUM 这个字段分组,那其他字段内容不同,变成一对多又改如何显示呢,比如下面所示 A B 1 abc 1 bcd 1 asdfg select A,B from table group by A 你说这样查出来是什么结果, A B abc 1 bcd asdfg 右边3条如何变成一条,所以需要用到转载 2010-08-15 14:58:00 · 570 阅读 · 0 评论 -
left join 和 left outer join
通俗的讲: A left join B 的连接的记录数与A表的记录数同 A right join B 的连接的记录数与B表的记录数同 A left join B 等价B right join A table A: Field_K, Field_A 1 a 3 b 4转载 2010-08-15 14:21:00 · 937 阅读 · 0 评论 -
MySQL去除查询结果重复值 distinct 的用法
<br />转自: phpv作者:索尔内容:作者学习distinct的过程,值得借鉴啊 ^^ -------------------------------------------------------------------------------- <br />在使用mysql时,有时需要查询出某个字段不重复的记录,虽然mysql提供有distinct这个关键字来过滤掉多余的重复记录只保留一条,但 往往只用它来返回不重复记录的条数,而不是用它来返回不重记录的所有值。其原因是distinct只能返回它的转载 2010-08-15 15:11:00 · 640 阅读 · 0 评论 -
sql聚合函数
<br />sql 聚合函数<br />1.AVG AVG ( [ ALL | DISTINCT ] expression )<br /> <br />参数 <br />ALL<br /> 对所有的值进行聚合函数运算。ALL 是默认值。<br />DISTINCT<br /> 指定 AVG 只在每个值的唯一实例上执行,而不管该值出现了多少次。<br />expression<br /> 是精确数值或近似数值数据类别(bit 数据类型除外)的 表达式。不允许使用聚合函数和子查询转载 2010-08-15 16:10:00 · 792 阅读 · 0 评论 -
Hive v0.6版本的新特性
Hive是一个基于Hadoop的,用于查询和管理结构化数据的开源数据仓库系统。它使用HDFS做存储,采用Map-Reduce做计算。它的核心构建原则是:1.SQL做为一个熟悉的数据仓库工具2.良好的可扩展性---包括Types, Functions, Formats, Scripts3.良好的可伸缩性和性能今年的10月份,Hive发布了最新版本0.6.0,你一定很期待了吧。OK,废话少说,让我们一睹为快吧^_^该最新版本加入了不少新功能,也做了不少改进,包括:--Views--Multiple Databa原创 2010-12-22 21:59:00 · 1346 阅读 · 0 评论 -
Hive0.6.0安装配置
说明:目前Hive的最新版本是0.6.0,但是不支持hadoop-0.21.0,所以需要安装hadoop-0.20.2或者以下版本. 我使用的是hadoop0.20.2+hive 0.6.0 ---------------------------------------------------------------------- Hive的必要配置非常简单: 1.将hive解压到一个目录下,修改.bashrc文件设置环境变量HADOOP_HOME,即添加:export HADOOP_HOME=/ho原创 2011-02-08 23:58:00 · 1175 阅读 · 0 评论 -
Hive中实现自定义函数UDF及打包
Hive的UDF,其实很类似Mysql之类的自定义函数 不过它需要用java来编写,而不是用传统的SQL来完成 实现一个UDF的步骤如下: 实现一个Java Class,继承自UDF 打成jar包,并加入到Hive的ClassPath中 生成自定义函数,执行select 删除刚才创建的临时函数 下面这个UDF,是我给hive的array增加的一个函数 用来判断array中是否包含某个值,hive的标准函数中并没有此功能函数 package com.sohu.had原创 2011-04-13 11:12:00 · 2100 阅读 · 0 评论