
Hive
文章平均质量分 56
kwu_ganymede
Spark高级工程师
展开
-
【解决】hive跑批后presto未同步源数据的问题
【解决】hive跑批后presto未同步源数据的问题原创 2017-04-06 17:56:59 · 3473 阅读 · 0 评论 -
Hive处理JSON字符串
Hive处理JSON字符串原创 2016-10-27 17:32:30 · 28862 阅读 · 0 评论 -
基于CDH5.x的Hive权限详细配置
基于CDH5.x的Hive权限详细配置原创 2016-10-03 17:04:03 · 8900 阅读 · 0 评论 -
Hive运维记之——补分区表数
Hive运维记之-补分区表数据原创 2016-07-19 18:53:31 · 1545 阅读 · 0 评论 -
Hive计算引擎切换
Hive计算引擎切换原创 2016-08-16 17:24:11 · 21465 阅读 · 1 评论 -
HiveSQL的CASE-WHEN的使用
HiveSQL的CASE-WHEN的使用case when 条件 then 条件为真时的值 else 条件为假时的值 end原创 2016-08-03 18:51:32 · 33267 阅读 · 0 评论 -
配置通用hive的环境变量(.hiverc)
配置hive的环境变量原创 2016-07-15 18:13:46 · 5928 阅读 · 0 评论 -
【解决】hive动态增加partitions不能超过100的问题
【解决】hive动态增加partitions不能超过100的问题,全量动态生成partitions超过100会出现如下异常:原创 2015-10-13 13:19:51 · 3989 阅读 · 0 评论 -
[解决]Hive表分区被锁的情况
[解决]Hive表分区被锁的情况原创 2016-07-01 16:16:15 · 5254 阅读 · 0 评论 -
解决NameNode配置HA后Hive路径不正确的问题
解决NameNode配置HA后Hive路径不正确的问题原创 2016-04-25 18:41:26 · 7576 阅读 · 0 评论 -
[解决]Hive权限中超级管理员设置的问题
[解决]Hive权限中超级管理员设置的问题原创 2016-10-04 12:04:44 · 5541 阅读 · 0 评论 -
Hive实现从表中随机抽样得到一个不重复的数据样本
Hive实现从表中随机抽样得到一个不重复的数据样本转载 2016-11-02 15:15:03 · 13887 阅读 · 2 评论 -
hive使用技巧(四)——巧用MapJoin解决数据倾斜问题
hive使用技巧(四)——巧用MapJoin解决数据倾斜问题原创 2016-05-10 17:36:22 · 43133 阅读 · 0 评论 -
[解决]Hive执行语句:Unable to create temp file for insert values Expression of type TOK_FUNCTION not suppor
[解决]Hive执行语句异常:Unable to create temp file for insert values Expression of type TOK_FUNCTION not suppor原创 2017-03-21 15:50:05 · 14191 阅读 · 1 评论 -
hive修改表/视图的注释
hive修改表/视图的注释原创 2017-02-25 16:31:44 · 13196 阅读 · 0 评论 -
Presto 来自Facebook的开源分布式查询引擎
Presto 来自Facebook的开源分布式查询引擎转载 2017-02-04 17:05:48 · 704 阅读 · 0 评论 -
基于CDH5.4的hive与hbase的整合
hbase提供实时查询完好的弥补了hive实时查询的不足,现基于CDH5.4的hive与hbase的整合,已经非常成熟。具体步骤如下:原创 2015-10-13 10:45:49 · 2463 阅读 · 1 评论 -
修改Hive表结构
修改Hive表结构原创 2016-05-18 17:28:33 · 1213 阅读 · 0 评论 -
hive使用技巧(五)—— 一行转多行,多行转一行
hive使用技巧(五)—— 一行转多行,多行转一行原创 2016-12-02 17:09:02 · 24889 阅读 · 0 评论 -
hive使用技巧(一)自动化动态分配表分区及修改hive表字段名称
Author:kwuhive使用技巧(一)自动化动态分配表分区及修改hive表字段名称原创 2015-10-13 11:18:41 · 7262 阅读 · 0 评论 -
hive使用技巧(二)——共享中间结果集
hive使用技巧(二)——共享中间结果集,很多hive的Job用到的中间结果集 ,存在“亲缘”关系,多作业用共用输入或输出。原创 2015-11-19 14:30:51 · 6697 阅读 · 0 评论 -
hive使用技巧(三)——巧用group by实现去重统计
网站统计中常用的指标,pv ,uv , 独立IP,登录用户等,都涉及去重操作。全年的统计,PV超过100亿以上。即使是简单的去重统计也非常困原创 2015-12-22 16:53:49 · 35991 阅读 · 1 评论 -
详解大数据数据仓库分层架构
大数据数据仓库是基于HIVE构架的数据仓库,分布文件系统为HDFS,资源管理为Yarn,计算引擎主要包括MapReduce/Tez/Spark等,分层架构如下:原创 2016-05-10 23:06:08 · 39851 阅读 · 2 评论 -
impala-shell基本命令
impala-shell基本命令原创 2016-04-01 15:49:57 · 11418 阅读 · 0 评论 -
基于Hive及Sqoop的每日PV、UV、IP定时分析
[Author]: kwu 基于Hive及Sqoop的每日PV、UV、IP定时分析原创 2015-10-13 11:12:46 · 1839 阅读 · 0 评论 -
开发HIVE的UDTF自定义函数
[Author]: kwu UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping) 的需求,开发HIVE的UDTF自定义函数具体步骤如下:原创 2015-10-13 11:05:22 · 1003 阅读 · 0 评论 -
使用嵌套子查询优化hive的SQL
[Author]: kwu 使用子查询优化hive的SQL原创 2015-10-13 10:56:23 · 5608 阅读 · 1 评论 -
每日定时导入hive数据仓库的自动化脚本
[Author]: kwu 每日定时导入hive数据仓库的自动化脚本原创 2015-10-13 10:54:27 · 4803 阅读 · 0 评论 -
【解决】hive与hbase表结合级联查询的问题
[Author]: kwu 【解决】hive与hbase表结合级联查询的问题,hive两个表以上,关联查询时出现长时无法返回的情况。同时也不出现,mr的进度百分比。原创 2015-10-13 13:18:09 · 1454 阅读 · 0 评论 -
基于Cloudera Manager5配置HIVE压缩
[Author]: kwu基于Cloudera Manager5配置HIVE压缩,配置HIVE的压缩,实际就是配置MapReduce的压缩,包括运行结果及中间结果的压缩。原创 2015-10-13 11:57:24 · 930 阅读 · 0 评论 -
快速查询hive数据仓库表中的总条数
Author: kwu快速查询hive数据仓库中的条数,在查询hive表的条数,通常使用count(*),但是数据量大的时候,mr跑count(*)往往需要几分钟的时间。1、传统方式获得总条数如下:[sql] view plaincopyselect count(*) from ods.tracklog; 运行时间为91.208s2、与关系库一样hive表也可以通过查询元数据来得到总条数:[sql] view plaincopyselect d.NAME,t.TBL_NA原创 2015-10-13 13:19:05 · 17831 阅读 · 1 评论 -
创建与删除hive的表分区并指定目录
创建与删除hive的表分区并指定目录原创 2015-11-11 17:51:06 · 5901 阅读 · 0 评论 -
关于HIVE数据仓库的基本操作
[Author]: kwu 关于HIVE数据仓库的基本操作原创 2015-10-13 10:57:18 · 794 阅读 · 0 评论 -
hive命令行不打印日志
[Author]: kwu hive命令行不打印日志,hive的命令行运行会输出mapreduce的日志,这些日志对大部分用户来说是不需要的。原创 2015-10-13 13:26:38 · 5577 阅读 · 1 评论 -
创建hive整合hbase的表总结
[Author]: kwu 创建hive整合hbase的表总结,如下两种方式:原创 2015-10-13 13:27:22 · 1012 阅读 · 0 评论 -
从关系库导入数据到hive-hbase表中
[Author]: kwu从关系库导入数据到hive-hbase表中,关系库到hbase中,可以直接由sqoop来导入,但是我们要对rowkey做特殊处理并加入更新时间,则操作步骤如下:原创 2015-10-13 13:31:27 · 798 阅读 · 0 评论 -
基于sparksql调用shell脚本执行SQL
基于sparksql调用shell脚本执行SQL,sparksql提供了类似hive中的 -e , -f ,-i的选项原创 2015-10-13 13:23:08 · 5487 阅读 · 0 评论 -
基于CDH5集群配置snappy压缩
基于CDH5集群配置snappy压缩原创 2015-11-04 15:36:29 · 2600 阅读 · 0 评论 -
Hive创建二级分区表
Hive创建二级分区表.原创 2015-10-14 15:59:57 · 7201 阅读 · 1 评论 -
使用hiveF对sql语句的封装
使用hiveF对sql语句的封装原创 2015-10-19 17:42:44 · 2701 阅读 · 1 评论