
hive
woloqun
这个作者很懒,什么都没留下…
展开
-
MapReduce读取sequencefile文件
博客地址:http://www.fanlegefan.com 文章地址:http://www.fanlegefan.com/index.php/2017/08/18/mapreducesequencefile/创建sequencefile格式hive表create table test_seqencefile(name string,age int) stored as SEQUENCEFILE原创 2017-08-18 16:08:38 · 2329 阅读 · 0 评论 -
Sentry 权限模型之授权策略SQL
接上一篇hive 集成sentry继续来看下sentry的授权体系使用hive用户登陆,在这个hive用户是在$HIVE_HOME/conf/sentry-site.xml中配置, <property> <name>sentry.metastore.service.users</name> <value>hive</val...原创 2018-10-31 16:13:23 · 5341 阅读 · 5 评论 -
ClassNotFoundException: org.apache.sentry.binding.metastore.SentryMetastorePostEventListener
环境:apache-hive-2.3.3-binapache-sentry-2.1.0-bin解决办法将org.apache.sentry.binding.metastore.SentryMetastorePostEventListener 替换成org.apache.sentry.binding.metastore.SentrySyncHMSNotificationsPostEven...原创 2018-10-29 23:07:05 · 1666 阅读 · 0 评论 -
数据仓库分层设计
最近在做数据仓库相关的工作,项目快要收尾了,总结下数据仓库数据分层设计的一些心得;虽然以前做过很多olap相关的工作,就像流量统计分析这种,这种类型分析,我们往往就弄一张大宽表和几张维度表;所有的统计分析都基于这张大宽表与维度表,在这种简单的应用场景,这种设计倒没有什么问题,简单明了;但是如果业务场景复杂,数据种类多,维度多,那数据仓库的设计就尤为重要,特别是在数据出了问题情况下,要进行排查,结构...原创 2018-09-28 16:34:32 · 3892 阅读 · 7 评论 -
hive用户权限以及表权限实现思路
hive权限系统hive本身提供的权限的系统是基于linux用户构建的,带来的问题就是,用户可以伪造账号访问数据,这样的话权限系统形同虚设;所以通常情况下,公司一般都会使用kerberos+sentry这种架构构建数据仓库;这就需要数据团队有比较强的技术实力[kerberos这玩意玩起来挺费劲的],但是大多数公司可能用上了大数据,但技术储备不够完善;所以我在想如何在不适用这些插件,也能实现这些功...原创 2018-09-26 16:09:06 · 10274 阅读 · 1 评论 -
Hive on Spark: Getting Started
Hive on Spark provides Hive with the ability to utilize Apache Spark as its execution engine.set hive.execution.engine=spark;Hive on Spark was added in HIVE-7292.Version CompatibilityHive on ...转载 2018-09-03 13:25:13 · 891 阅读 · 0 评论 -
数据仓库迁移记录
公司现有的hadoop集群空间快用完了,预计不久文件数将超过一个namenode支持上限(namenode支持的文件数和namenode内存大小有关,1G内存大约支持100w个文件),所以公司搭建了一套新的集群,采用Frederation架构来支持hadoop集群的水平扩展,原理上就是将hdfs元数据信息存储在多个namenode上,可以理解为分片,每个namenode分片又做了HA,集群拓扑图如...原创 2018-08-21 10:12:30 · 1525 阅读 · 0 评论 -
hive元数据
一、元数据表描述mysql元数据库hive中的表:表名 作用 BUCKETING_COLS 存储bucket字段信息,通过SD_ID与其他表关联 CDS 一个字段CD_ID,与SDS表关联 COLUMNS_V2 存储字段信息,通过CD_ID与其他表关联 DATABASE_PARAMS 数据库的属性信息 DBS 存储hive的datab...原创 2018-08-20 13:56:44 · 1250 阅读 · 0 评论 -
hive-2.1.1配置安装
其实在公司我们用的是0.13.0这个版本,看见官网有2.1.1版本,所以想先体验下,具体这两个版本有啥区别,还没有去研究过 先说下hive安装的几种方式 1. 内嵌方式,使用的是derby数据库存储元数据,默认也是采用的这种数据库,但是有个缺点,一次只能有一个hiveclient链接 2. 本地模式,使用本地的mysql数据库存储元数据 3. 远程模式,mysql和hive独立开来在公...原创 2018-06-10 11:03:44 · 894 阅读 · 0 评论 -
hive注释乱码的问题
博客地址:http://www.fanlegefan.com 文章地址:http://www.fanlegefan.com/archives/hiveluanmahive在初始化的元数据的时候,默认编码为latin1,所以中文注释会乱码: 解决办法:修改存储注释的字段的编码为utf8即可alter table COLUMNS_V2 modify column COMMENT varc原创 2018-01-23 14:27:40 · 502 阅读 · 0 评论 -
parquet-thrfit 数据读写以及hive表读取
博客地址:http://www.fanlegefan.com 文章地址:http://www.fanlegefan.com/index.php/2017/07/21/parquet-thrfit-hive/摘要本文将用MapReduce方式读写parquet-thrfit格式文件,并将数据导入到hive表中进行查询操定义person.thrift文件namespace java com.fan.h原创 2017-08-03 12:14:31 · 2316 阅读 · 0 评论 -
hive 集成sentry
环境apache-hive-2.3.3-binapache-sentry-2.1.0-binsentry是目前最新的版本,支持hive的最高版本为2.3.3,hive版本如果高于2.3.3,会出一些版本兼容问题[亲测]hive快速安装wget http://mirrors.shu.edu.cn/apache/hive/hive-2.3.3/apache-hive-2.3.3-bin.t...原创 2018-10-30 10:50:05 · 5132 阅读 · 1 评论