hive
逸卿
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[Hive]从一个经典案例看优化mapred.map.tasks的重要性
我所在公司所使用的生产Hive环境的几个参数配置如下: dfs.block.size=268435456 hive.merge.mapredfiles=true hive.merge.mapfiles=true hive.merge.size.per.task=256000000 mapred.map.tasks=2 因为合并小文件默认为true,而dfs.block.size与转载 2014-05-07 19:00:50 · 1151 阅读 · 0 评论 -
HIVE 数据定义 DDL
coming form:http://blog.youkuaiyun.com/iquicksandi/article/details/8522691 Databases in Hive -- 在HIVE 中使用数据库 Hive offers no support for row-level inserts, updates, and deletes. Hive do转载 2014-12-31 14:23:53 · 949 阅读 · 0 评论 -
hive null
from:http://blog.youkuaiyun.com/yfkiss/article/details/7943053 hive中NULL默认是以'\N'表示的 示例: 建表: hive> create table null_test_1(id INT, name STRING) > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'转载 2014-11-24 15:45:10 · 1004 阅读 · 0 评论 -
HIVE中MAPJOIN可以使用的场景分析
最近开发中遇到几种应用,刚好使用MAPJOIN来解决实际的问题。 应用共同点如下: 1: 有一个极小的表 2: 需要做不等值join操作(a.x 这种操作如果直接使用join的话语法不支持不等于操作,hive语法解析会直接抛出错误 如果把不等于写到where里会造成笛卡尔积,数据异常增大,速度会很慢。甚至会任务无法跑成功~ 根据mapjoin的计算原理,MAP转载 2014-08-01 14:33:17 · 764 阅读 · 0 评论 -
Hive SQL 编译过程详解
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。 在 几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为 MapReduce的过转载 2014-08-01 15:35:16 · 1192 阅读 · 0 评论 -
hive之UDF整理
Hive UDF整理 (可以直接在mysql上测试,hive中没有伪表,需要手动创建,反应慢) 字符串函数 字符串长度函数:length 语法: length(string A) 返回值: int 说明:返回字符串A的长度 举例: hive> select length(‘abcedfg’) from dual; 7 字符串反转函数:reverse转载 2014-05-08 13:34:42 · 1287 阅读 · 0 评论 -
hive中partition如何使用
网上有篇关于hive的partition的使用讲解的比较好,转载了: 一、背景 1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partition的分区空间。 3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitio转载 2014-05-09 08:47:33 · 1000 阅读 · 0 评论 -
hive的安装(包括mysql)
1.Hive简介 1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为MapReduce中的job,可以把SQL中的表、字段转换为HDFS中的文件(夹)以及文件中的列。原创 2014-05-08 13:50:22 · 1697 阅读 · 0 评论 -
hive命令的3中调用方式
hive命令的3种调用方式 方式1:hive –f /root/shell/hive-script.sql(适合多语句) hive-script.sql类似于script一样,直接写查询命令就行 例如: [root@cloud4 shell]# vi hive_script3.sql select * from t1; select count(转载 2014-05-08 13:47:06 · 1035 阅读 · 2 评论 -
HiveSQL的执行过程分析
首先,我们看一下hive的整个系统架构: 我们可以发现,hive主要由以下几部分组成: 客户端/ThriftServer/Driver/MetaStore四部分组成。 其中可用的客户端包括:CLI(命令行界面)/JDBC或者ODBC客户端/WEB接口界面,我们可以通过上面三种客户端向hive提交我们的命令。 ThriftServer:Jdbc或者Odbc通过转载 2014-05-08 11:18:25 · 3469 阅读 · 0 评论 -
开发hive UDF函数
from: http://blog.youkuaiyun.com/azhao_dn/article/details/6981115 1)首先创建一个java 项目,命名为HelloUDF,使用默认选项; 2)在src目录上右键,选择创建package,命名为com.test.hive.udf; 3)在package上右键,选择new class,如下图:转载 2015-01-04 10:00:25 · 882 阅读 · 0 评论
分享