
Hive
kismetG
HelloWorld
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据仓库 --拉链表技术介绍
拉链表:维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户记录。数据仓库的数据模型设计过程中,经常会遇到这样的需求:表中的部分字段会被update,例如: 用户的地址,产品的描述信息,品牌信息等等; 需要查看某一个时间点或者时间段的历史快照信息,例如: 查看某一个产品在历史某一时间点的状态 查看某一个用户在过去某一段时间内,更新过几次等等 变化的比例和频率不是原创 2020-05-12 11:26:35 · 1135 阅读 · 0 评论 -
Sqoop --错题 java.io.IOException: Hive exited with status 88
错误:遇到运行导入作业:java.io的IOException。状态88退出蜂巢其实原因很简单!!!你没有在hive中创建对应的数据库!!!再次尝试导入到hive:数据导入成功!!!...原创 2019-12-05 08:59:51 · 2773 阅读 · 2 评论 -
Hive --调优
Fetch抓取(Hive可以避免进行MapReduce) Hive中对某些情况的查询可以不必使用MapReduce计算。例如在查询表所有数据上,Hive可以简单地读取表对应的存储目录下的文件,然后输出查询结果到控制台。 在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive...原创 2019-12-05 10:58:30 · 4813 阅读 · 2 评论 -
Hive --数据压缩
hive的数据压缩在实际工作当中,hive当中处理的数据,一般都需要经过压缩,节省我们的MR处理的网络带宽mr支持的压缩编码 压缩格式 工具 算法 文件扩展名 是否可切分 DEFAULT 无 DEFAULT ...原创 2019-12-03 20:39:12 · 1746 阅读 · 0 评论 -
Hive --自定义函数
hive的自定义函数1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。2)当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。3)根据用户自定义函数类别分为以下三种:(1)UDF(User-Defined-Function) ...原创 2019-12-03 15:03:51 · 1449 阅读 · 0 评论 -
HIVE --管理表(表分隔符,外部表,分区表,分桶表,hive载入数据,导出数据)
1.管理表--建表关键字 1.创建表并指定字段之间的分隔符 row format delimited fields terminated by '\t'create table if not exists stu2(id int ,name string) row format delimited fields terminated by '\t'...原创 2019-12-02 11:43:27 · 2149 阅读 · 0 评论 -
HIVE -- 基础介绍,建表介绍
1.hive的介绍Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,hive可以理解为一个将SQL转换为MapReduce的任务的工具。2.hive的特点可扩展 Hive可以自由的扩展集群...原创 2019-11-28 17:18:51 · 2087 阅读 · 0 评论