
Hive实战
文章平均质量分 69
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
脚踏宝马
这个作者很懒,什么都没留下…
展开
-
hive数据操纵
1、Loading Data into Managed Tables 加载数据本地数据: LOAD DATA LOCAL INPATH '${env:HOME}/california-employees' //一般是目录 OVERWRITE INTO TABLE employees PARTITION (country = 'US', state = 'CA');原创 2013-09-12 17:51:31 · 989 阅读 · 0 评论 -
hive 数据查询
一、SELECT ... FROM ...子句hive> SELECT name, salary FROM employees;hive> SELECT e.name, e.salary FROM employees e;第一种方式是我们普遍使用的,第二种方式使用了别名,这在JOIN查询时非常必要 1.1 查询数组结果,subordinates 数组类型原创 2013-09-12 17:53:03 · 2537 阅读 · 0 评论 -
hive view 视图
视图可以保存查询语句,可以像对待表一样对待视图,它只是一个逻辑上的结构,目前hive还不支持实例化的视图7.1 视图降低复杂度原始语句FROM (SELECT * FROM people JOIN cartON (cart.people_id=people.id) WHERE firstname='john') a SELECT a.lastname WHERE原创 2013-09-17 10:25:09 · 2852 阅读 · 0 评论 -
hive 性能 调优、优化
1、explain _query与 explain extended _query用于查看hive对hql的解析,包括执行阶段、执行任务和任务属性explain select name from testexplain extended select name from test...2、limit在使用客户端查询hive数据时,经常会用到limit限制输出数据数目,很多原创 2014-01-10 17:26:22 · 2841 阅读 · 0 评论 -
hive 重装之后配置mysql出现错误 解决办法
出现的问题:FAILED: Error in metadata: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClientFAILED: Execution Error, return code 1 from org.apache.hado原创 2014-02-08 14:42:12 · 1873 阅读 · 0 评论 -
hive 查看、修改 表 属性
hive 查看、修改 表 属性原创 2014-04-04 13:30:01 · 3363 阅读 · 0 评论 -
hive 处理小文件,减少map数
hive 处理小文件,减少map数1、hive.merge.mapfiles,True时会合并map输出。2、hive.merge.mapredfiles,True时会合并reduce输出。3、hive.merge.size.per.task,合并操作后的单个文件大小。4、hive.merge.size.smallfiles.avgsize,当输出文件平均大小小于设定值时,启动合并操作。这一设定只有当hive.merg原创 2014-04-04 13:39:09 · 4620 阅读 · 0 评论 -
hive压缩
hive采用压缩进行性能优化原创 2014-08-15 19:04:06 · 3992 阅读 · 0 评论 -
hive安装部署
hive安装部署,部署环境,操作步骤原创 2014-11-13 20:30:08 · 2859 阅读 · 0 评论 -
hive元数据库配置、metadata
介绍hive默认元数据Derby(嵌入模式),修改hive的元数据库,使用mysql。配置mysql的几种不同机制原创 2014-11-13 20:34:15 · 15985 阅读 · 1 评论 -
hive 空值、NULL判断
hive空值、NULL判断以及存储原创 2014-12-11 19:34:15 · 63737 阅读 · 3 评论 -
hive由fs.hdfs.impl.disable.cache参数引起的重写分区数据的异常
hive设置fs.hdfs.impl.disable.cache=true时,使用insert overwrite命令更改分区数据时会出现把分区的路径修改掉异常,根据源码排查了下出现该问题的原因!原创 2015-01-08 11:06:38 · 11288 阅读 · 0 评论