
hive
搬运工小刚
这个作者很懒,什么都没留下…
展开
-
UDF函数判断一个日期是否为合法正确的日期并返回其季初值
import org.apache.hadoop.hive.ql.exec.UDF;import java.text.ParseException;import java.text.SimpleDateFormat;/** * @Author:顾* * @Date:2019. * @Use:返回一个日期的季度初值 */public class InitialUpper extends UDF { public String evaluate(final String txt){原创 2020-06-18 10:57:17 · 714 阅读 · 0 评论 -
每天跑批的增量数据导入到增量表的方式
逻辑一INSERT OVERWRITE TABLE tablename_1(全量表)SELECT A.* FROM tablename_1 A LEFT JOIN tablename_2(增量表) B ON A.ID = B.ID WHERE B.ID IS NULLUNION ALLSELECT B.* FROM tablename_2 B逻辑二全量表增加一个分区字段(requestdt)INSERT OVERWRITE TABLE tablename_1(全量表原创 2020-06-10 15:58:29 · 877 阅读 · 0 评论 -
Hive 知识点总结
文章目录hive是什么?hive的架构原理星型模型 雪花模型 应用场景hive 解析 json格式的数据列转行 侧视图hive和数据库的区别hive数据的存储数据仓库的四层结构数据质量的校验: 错误值、重复值、数据不一致、缺失值hive自定义函数数据倾斜的优化原因:参数调节sql语句的调优hive性能优化一、存储优化,选用ORC二、表设计优化三、sql参数优化四、sql优化五、开启本地模式几个排序的区别窗口函数时间函数:数据缺失值处理办法;hash joinhive是什么?Hive是基于 Hadoop原创 2020-05-09 10:41:50 · 764 阅读 · 0 评论 -
Hive数据倾斜的原因及其解决方案(hive SQL调优)有实例加深理解
1、数据倾斜的原因1.1 操作:1.2 原因:1)、key分布不均匀2)、业务数据本身的特性3)、建表时考虑不周4)、某些SQL语句本身就有数据倾斜1.3 表现:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。单一reduce的记录数与平均记录数差异过大,通常可能达到3...原创 2020-04-14 10:07:34 · 1965 阅读 · 1 评论 -
java 读取hive中的表
java 读取hive中的文件在IDEA中public class Myhive { public static void main(String[] args) throws Exception{ Class.forName("org.apache.hive.jdbc.HiveDriver"); Connection connection = Driv...原创 2020-04-13 20:24:10 · 2198 阅读 · 0 评论 -
hive映射hbase中的表
hive映射hbase中的表create external table users(key string,user_id string,locale string,birthday string,gender string,joinedAt string,location string,timezone string --这里可以自定义可以不和hbase上的修饰符一样)s...原创 2020-03-30 21:15:20 · 252 阅读 · 0 评论 -
hive(数据仓库)常用命令
hive的常见操作命令-- 开启hivehive -- 查看当前数据库select current_database();-- 强制删除数据库(hdfs上的也删了)drop database demo cascade;-- 创建数据库drop database if exists mydemo;create database mydemo;-- 选择数据库use mydemo...原创 2020-03-30 21:09:15 · 565 阅读 · 0 评论 -
Hive的安装配置及原理 完美解决解压hive缺少hive-site.xml文件,和安全模式无法启动hive等问题
Hive原理Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hvie是建立在Hadoop上的数据仓库基础架构。它提供了一系列的工...原创 2019-12-11 18:16:51 · 16635 阅读 · 1 评论