- 博客(19)
- 资源 (2)
- 收藏
- 关注
原创 Hive中生成连续的天,小时,分钟的HQL写法
---生成连续的天selectdate_add(start_date,pos) as dtfrom( select '2021-10-01' as start_date ,'2021-10-15' as end_date)tlateral view posexplode(split(repeat(',',datediff(end_date,start_date)),',')) tab as pos,val;---生成连续的小时selectfrom_unixtime(t1
2022-03-15 23:06:20
2655
转载 2022最新大数据面试题之华为
1.spark内存管理2.hive分区表中,单值分区和范围分区的区别3.你们公司执行spark任务时,资源怎么设置的(需要直接说出来)4.介绍一下kafka水位线(其实就是leo和Hw)5.说几个指标,分别从什么数据层拿取了数据,需要直接说出来6.数仓采用了什么模型?为什么?7.hive分区表,单值分区和范围分区的区别8.spark任务切分,怎么判断有没有执行shuffle9.你们公司拉链表都有什么字段,拉链表出错怎么办10.列举几张表的同步策略11.flink Sql 了解吗...
2022-02-11 18:33:47
1050
原创 Maven项目中引入Guava依赖
<!-- https://mvnrepository.com/artifact/com.google.guava/guava --> <dependency> <groupId>com.google.guava</groupId> <artifactId>guava</artifactId> <version>22.0&l...
2021-11-16 16:56:22
10904
原创 Hive实现获取指定月的第一天和最后一天
--指定月的第一天select trunc('2020-11-10','MM');2020-11-01--指定月的最后一天select last_day('2020-11-10');2020-11-30
2021-11-09 14:07:54
6412
原创 在Hive中生成连续的分钟
---生成连续的分钟selectfrom_unixtime(t1.start_time+tab.pos*60) as continue_timefrom( select unix_timestamp('2020-07-27 00:00:00') as start_time ---生成连续分钟的开始时间 ,unix_timestamp('2020-07-27 00:15:00') as end_time ---生成连续分钟的结束时间)t1lateral view pos
2021-09-29 10:37:19
663
原创 源码编译Kylin(详细版)
1. 在阿里云ECS上源码编译Kylin1.1 编译前准备 在Kylin源码编译过程中有不少坑,报各种错.为了减少报错信息,需要提前对编译环境做一些准备.安装Maven(版本在3.5.3及以上)#1.解压安装包[root@linux122 software]# tar -zvxf apache-maven-3.6.3-bin.tar.gz -C /opt/servers#2.配置maven环境变量[root@linux122 software]# vim /etc/profile#MA
2021-09-29 10:34:42
1570
原创 jdk-11.0.9_linux-x64_bin.tar.gz免费下载
这是从Oracle官方下载的,已在生产使用.免费下载地址:https://pan.baidu.com/s/1gJw4jmauxoYsHrMtvVyJPw提取码:0k3e
2021-01-01 23:22:00
3006
2
原创 在Hive中根据起止日期生成连续的日期
格式:with dates as( select date_add(start_date, a.pos) as d from (select posexplode(split(repeat("m", datediff(end_date, start_date)), "m"))) a)select * from dates;使用方式: 将start_date和end_date替换为自己的日期即可.案例:with dates as( select date_add("202
2020-11-18 16:00:51
3600
2
原创 将Hive的执行引擎更换为Tez
将Hive的执行引擎更换为Tez1.1 集群环境CentOS7.xJDK1.8hadoop2.7.2hive2.3.7tez-0.9.2hiveserver2,metastore和tez都安装在hadoop102上1.2 操作步骤1.2.1 下载并解压Tez安装包下载地址https://mirrors.bfsu.edu.cn/apache/tez/0.9.2/解压#HiveServer2在哪个节点就解压到哪个节点[root@hadoop102 software]$ ta
2020-10-27 16:50:28
1786
2
原创 原生Hadoop环境下安装Hue
1. 写在前面的话 从事大数据开发已经有几年了,最近工作遇到瓶颈,时下火热的技术用的不多,想再提升提升.经过对方对比,详细了解了拉勾的课程体系,觉得是比较适合自己的,所以最后选择了拉勾教育大数据高薪训练营.现对学习内容以及结合自身的工作经验做一些总结.2. Hue的编译安装2.1 hue相关的网址Hue官方网站Hue官方用户手册官方安装文档HUE下载地址2.2 安装说明 由于官方没有提供编译好的软件包,所以这里需要自己下载源码,安装依赖,编译安装.安装Hue的节点上最好没有安装过MyS
2020-09-06 18:27:31
628
原创 HiveSQL常用优化方法经验总结
1. 写在前面的话从事大数据开发已经有几年了,最近工作遇到瓶颈,时下火热的技术用的不多,想再提升提升.经过对方对比,详细了解了拉勾的课程体系,觉得是比较适合自己的,所以最后选择了拉勾教育大数据高薪训练营.现对学习内容以及结合自身的工作经验做一些总结,也算是开启自己的博客之路.2. Hive中解决数据倾斜的场景2.1 大表Join小表时的数据倾斜(map join) 在大表Join小表时,解决数据倾斜最好的方式是使用Map Join,避免Shuffle,从而也避免了数据倾斜. map join主要通
2020-09-06 17:43:19
1362
1
原创 阿里云ECS服务器下安装MySQL
1. 写在前面的话 从事大数据开发已经有几年了,最近工作遇到瓶颈,时下火热的技术用的不多,想再提升提升.经过对方对比,详细了解了拉勾的课程体系,觉得是比较适合自己的,所以最后选择了拉勾教育大数据高薪训练营.现对学习内容以及结合自身的工作经验做一些总结,也算是开启自己的博客之路.2. 安装MySQL的前置条件2.1 安装环境说明 这里安装选用的Linux系统的版本为CentOS7.5,MySQL的版本为MySQL5.7.26,在阿里云ECS服务器上进行安装.2.2 删除CentOS7.x自带的M
2020-09-06 15:03:57
532
原创 原生Hadoop环境下Impala的安装和使用
1. Impala的基本概念1.1 什么是Impala Impala就是使用SQL语句来操作Hive中的数据库和表,它可以提供低延迟的交互式的SQL查询功能.它与Hive共用表的元数据信息,所以需要使用Impala必须要先有Hive.1.2 Impala的优缺点以及使用场景优点:基于内存计算,不需要把中间结果写入磁盘,省掉了大量的I/O开销.无需将SQL转换为MapReduce任务,可以直接访问存储在HDFS,HBASE中的数据进行作业调度,可以提高查询速度.使用了支持数据本地化的I/O调
2020-09-06 14:17:48
3295
12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人