
hive
liwenjie001i
欢迎收藏我的博客
展开
-
Zepplin安装与链接hive使用
安装直接到官网下载对应的版本上传到集群上解压即可.解压 tar -zxvf zeppelin-0.8.0-bin-all.tgz -C /opt/module/启动进到刚才解压的目录下运行启动脚本 bin/zeppelin-daemon.sh start访问zepplin 默认的端口号为8080,如果和集群的其他端口号冲突的,可以去配置文件里面进行修改。下面的ip地址改成你安装的机器的地址就可以了。http://192.168.1.102:8080/链接hive.原创 2020-10-21 23:35:01 · 355 阅读 · 0 评论 -
Hive踩坑之动态和静态分区混合使用
分区是hive非常高效的一种存储方式,将列值作为目录进行存储数据,当使用where条件过滤的时候就会直接扫描对应的目录下的数据,不扫描其他不关联的分区,快速定位,查询节约大量时间。分区分为动态和静态两种分区。那么今天我们就来看看这其中需要注意的事项和容易采的坑。动态分区不显示的给出分区名,根据列的取值自动建立对应的分区,有多少种取值就有多少种分区,所以这在实际生产中很容易导致生成大量的分区,也就导致HDFS生成大量的小文件(这里是需要注意的),所以我们要设置最大分区数。SET hive.e..原创 2020-07-22 20:09:20 · 2852 阅读 · 1 评论 -
每日一图之HIVE架构图
今天画了一下HIVE的架构图,比较简单的,在大数据领域中其实也不是很重要简单了解一下吧。原创 2020-07-09 21:03:38 · 574 阅读 · 0 评论 -
详解数据仓库和数据库的区别
一、数据仓库什么是数据仓库? 数据仓库(Data Warehouse),可简写为DW或DWH,数据仓库,是为了企业所有级别的决策制定计划过程,提供所有类型数据类型的战略集合。它出于分析性报告和决策支持的目的而创建。为需要业务智能的企业 ,为需要指导业务流程改进、监视时间,成本,质量以及控制等;数据仓库能干什么?(举几个栗子)年度销售目标的制定,需要根据以往的历史报表进行决策,不能随便...原创 2018-05-19 08:50:20 · 83951 阅读 · 11 评论 -
hive和hbase集成使用出现兼容问题重新编译源码
一、版本和兼容问题hive1.2.1hbase1.3.1兼容问题报错(最后查看社区发现版本问题)hive-hbase-handler-1.2.1.jar 二、编译源码去官网下载hive1.2.1的源码。解压到桌面。创建一个java项目。 1.把hive1.2.1lib和hbase1.3.1下面到jar包导入到项目的libs目录下(把里面重复的jar包去掉),...原创 2018-05-27 14:50:18 · 1262 阅读 · 0 评论