阳沉-优快云博客

原创 Spark jdbc mode=overwrite保留table原结构

spark jdbc save truncate

2023-06-27 18:00:30 852

原创 hive以5分钟间隔处理数据

加粗样式使用unix_timestamp()获取当前时间戳（以秒为单位）加粗样式使用from_unixtime()处理时间戳对时间戳进行处理，得到需要的时间例如：获取前20分钟的五分钟间隔时间。select unix_timestamp(),from_unixtime(unix_timestamp()),from_unixtime((unix_timestamp()/300-5)*300) start_time,from_unixtime((unix_timestamp()/300-4)*300)

2021-11-12 11:18:59 3016

原创 get_json_object解析含有‘.‘的key

问题Hive的get_json_object解析的json中的key含有’.’思路将json字符串的’.‘替换成’’，之后再获取。例如json字段是parm，其中含有key为test_1.0.在直接get_json_object(parm,’$.test_1.0’)会无法解析获取到null。使用替换后获取即可。get_json_object(replace(parm,'$.test_10')...

2021-09-13 17:41:41 1618

原创 NoClassDefFoundError异常解决方法

一、导入过依赖，但依赖为provided解决方法将provided更改。或者点击Edit Configurations将其中的include dependencies 选中二、没有导入依赖进入pom文件，右键点击generate查询缺少的类，将依赖添加。...

2021-09-06 21:36:31 3372 1

原创 null被强转为类后调用方法

public class Test{ public static void hello() { System.out.println("hello"); } public static void main(String[]args){ ((Test) null).hello(); }}代码是可以运行的。任何对象都可以赋值为null。（Test）null 不能调用Test中的普通方法，但可以调用Test中的静态方法。（Test）null 不能调用对象的

2021-02-03 20:23:06 192

原创 Hadoop数据压缩的类型和优缺点

Snappy优缺点优点压缩速度极快缺点不支持split应用场景Map到Reduce的中间数据压缩处理Bzip2优缺点优点超高压缩率支持split缺点压缩速度慢应用场景数据用的较少的情况Lzo优缺点优点压缩率和压缩速度适宜支持split缺点非hadoop自带压缩率低于gzip应用场景主流，单个文件越大，lzo优点越明显gzip优缺点优点压缩率比较高缺点不支持split应用场景在应用中处理gzip格式的文件就和直接处

2021-01-18 23:07:38 367

原创 Scala方法和函数

1、方法和函数定义形式不同2、方法就是函数，函数也是对象3、函数可以作为参数传递到方法中去方法和函数的参数最多22个方法方法定义 //def 方法名（名称：类型，名称：类型）={方法体} def fun1(name:String,age:Int)={ name+age } //def 方法名（名称：类型，名称：类型）：返回值类型={方法体} def fun2(name:String,age:Int):String={ name+ag

2020-11-19 10:55:14 273

原创 Azkaban配置与入门案例

什么是AzkabanAzkaban是由Linkedin公司推出的一个批量工作流任务调度器，主要用于在一个工作流内以一个特定的顺序运行一组工作和流程，它的配置是通过简单的key:value对的方式，通过配置中的dependencies 来设置依赖关系。Azkaban使用job配置文件建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。Azkaban特点1)兼容任何版本的hadoop2)易于使用的Web用户界面3)简单的工作流的上传...

2020-11-07 16:56:26 436

原创多台机器相互ssh免密登录

环境准备现有三台机器，实现相互免密登录ip信息如下hadoop001:192.168.33.130hadoop002:192.168.33.131hadoop003:192.168.33.132将hostname加入/etc/hosts文件尾部192.168.44.130 hadoop001192.168.44.131 hadoop002192.168.44.132 hadoop003分别在三台机器创建/root/.ssh目录mkdir /root/.ssh生成秘钥在ha

2020-10-14 10:43:12 1389 1

原创 java移位运算符

“<<”左移运算符，左边的最高位丢弃，右边补0。向左移动几位就是乘于2的几次幂。int a=2;// a<<1 为4// a<<2 为8“>>”右移运算符，最高位是0，则左边补0；最高位为1，则左边补1。向右移动几位就是除以2的几次幂。int a=8;// a>>1 就是4// a>>2 就是2“>>>”无符号右移运算符，无论最高位是0还是1，左边都补0。byte a=-2;// 移位

2020-10-09 23:09:29 145

原创 java、spring连接redis

java集成Redis依赖<dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>3.1.0</version></dependency>// 创建一个 Jedis 的连接Jedis jedis = new Jedis(“127.0.0.1”, 6379);/

2020-10-04 21:01:37 699

原创 SSM纯注解基础实现

文章目录环境准备导入依赖数据库属性配置文件：db.properties日志文件：logback.xml持久层实体类UserUserviceMapper接口UserMapper.xml服务层IUserService接口UserService实现类表现层UserController控制类Spring配置类数据库连接池信息配置类Spring配置类SpringMvc配置类web.xml（服务器启动时调用）异常处理，跳转错误界面以查询数据库ssm中的user表的所有属性为例环境准备导入依赖spring-jdb

2020-09-27 22:12:23 930

原创简易shell脚本实现centos开机自动更新时间

编写shell脚本#创建文件vi /root/time.sh编写内容#!/bin/bash# update time!ntpdate ntp1.aliyun.comecho "yes"执行shell脚本sh /root/time.sh开机自动执行#在/etc/rc.local(或/etc/rc.d/rc.local)文件添加sh /root/time.sh...

2020-09-26 16:21:49 635

原创 SpringAOP-静态、动态代理

SpringAOP实现代码复用，保持原有代码的结构（流程）不被改变，增强功能。静态代理在程序运行前就以经存在代理类的字节码文件，代理对像和被代理对象在运行前已经被确定。优点：1、业务类只需关注业务类本身，保证了业务类的重用性。 2、把真实对象隐藏起来，保护真实对象。缺点：1、代理对象的某个接口只服务于某一种类型的对象，也就是说每一个真实对象都得创建-个代理对象。2、如果需要代理的方法很多，则要为每一种方法都进行代理处理。3、如果接口增加一个方法，除了所有实现类需要实现这个方法外，所有代理

2020-09-25 22:47:11 312

原创 mybatis入门

Mybatis文章目录Mybatismybatis基础依赖mybatis.xml配置文件获取SqlSession对象执行SQL语句编写mapper文件根据mapper文件中的SQL语句mapper接口方法mybatis.xml主要配置environments别名配置关联属性文件mapper映射文件保存自动生成的主键ResultMap配置association单个对象collection 单或多个对象多参数#{}与${}动态sql通用mapper分页插件mybatis基础依赖<dependenc

2020-09-22 22:47:42 596

原创 Hive调优

Fetch抓取hive中对某些情况的查询可以不用MapReduce计算。例如select * from emp，可以简单的读取emp文件，输出结果。在hive-default.xml.template文件中的hive.fetch.task.conversion默认为more，老版本默认为minimal。该值设为more后，在全局查找、字段查找和limit查找等都不使用MapReduce。<property> <name>hive.fetch.task.conve

2020-09-22 22:45:44 147

原创 Hive自定义函数

使用idea编辑器实现firstudf函数（判断值是否为空，不为空返回小写+999）导入依赖<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>3.1.2</version></dependency>package udf;import org.apache.

2020-09-21 16:14:50 179

原创 Hive基础HQL

Hive基本数据类型基本类型 hive数据类型 java数据类型长度例 tinyint byte 1字节 smallint short 2字节 int int 4字节 ..

2020-09-18 22:14:06 669

原创 MapReduce连接查询入门

MapReduce连接查询入门MapReduce连接查询分为reduce连接查询和map连接查询。reduce阶段连接查询缺点：容易出现数据倾斜解决方法：使用map阶段连接查询Map阶段连接查询记录商品信息文件link/shop（商品id，商品名称）1 小米2 华为3 联想记录订单信息文件link/order（订单id，商品id,商品数量）1 1 12 2 23 3 34 1 45 2 56 3 6将order文件和shop文件合并，输出格

2020-09-16 11:19:01 394

原创 Centos7Hive和Mysql的安装

Hive和Mysql的安装基于centos7且已安装hdfsHive下载前往hive.apache.org/download.html界面下载hive解压使用tar -zxvf 压缩包bin 二进制文件目录conf 配置文件目录（主要操作）scripts脚本文件目录配置环境变量在/etc/profile文件中添加如下代码（文件末尾）vi /etc/profile#HIVE_HOME指向安装目录export HIVE_HOME=/usr/soft/hiveexport PA

2020-09-15 22:42:10 369

原创基于Centos7Hadoop分布式搭建

Hadoop分布式搭建文章目录Hadoop分布式搭建配置环境变量更改/etc/profile文件更新环境变量配置hadoop1、编辑/usr/soft/hadoop321/etc/hadoop/core-site.xml2、编辑/usr/soft/hadoop321/etc/hadoop/hdfs-site.xml3、初始化namenode4、修改用户配置（可选）5、指定JAVA_HOME6、开启hdfs服务7、克隆虚拟机8、设置master对slave1和slave2的免密登录9、分布式hadoop：h

2020-09-15 22:40:02 131

qq_43536051的博客