星星妳睡了吗-优快云博客

原创 Spark DataFrame与数据源交互

使用DataFrame向mysql，parquet,hive中写入数据和从mysql中读取数据。数据源比较长这里仅仅做个参考，主要是学习整体思路。本篇文件将通过spark，完成对数据源的操作。JdbcUtils 进行数据库连接和逻辑编写。按照第一列和第二列对数据进行去重。读入日志文件并转化为。

2025-07-22 10:09:41 255

原创任务调度Kettle快速上手

Kettle主要是图形化的ETL工具，由转换(Transformation)和作业(Job)两个脚本文件，前者完成数据的转换，后者完成整个工作流的控制。

2024-11-06 11:00:31 833

原创 Hbase架构和读写流程

本篇文章将简单的讲述Hbase的架构和读写流程，多为理论部分，不涉及API代码从官方介绍可以知道,Hbase是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。

2024-08-13 19:24:03 1222

DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。异构数据源就是指数据结构、存取方式、形式不一样的数据源，对于异构数据源的数据处理起来一般是很麻烦的比如，数据格式和结构的差异、数据语义的不一致、数据访问接口的多样性、数据存储的位置和数据管理的方式等等都使得异构数据源交互起来很困难。

2024-08-13 16:12:39 3913

原创 Kafka数据写入Hbase

本篇文件将使用kafka将数据写入到hbase中。

2024-08-02 18:24:49 496

原创 Hbase集群搭建简易流程

##解决HBase和Hadoop的log4j兼容性问题，修改HBase的jar包，使用Hadoop的jar包。lib里的/client-facing-thirdparty/slf4j-..........-- <description> 记得修改ZK的配置文件 -->-- ZK的信息不能保存到临时文件夹-->1.保证zookeeper正常运行 hbase的服务管理框架。修改hbase-site.xml。修改hbase-env.sh。HMaster高可用。

2024-08-02 17:13:32 351

原创大数据场景下的Zookeeper集群的搭建

等服务器2启动时，1和2都为自己投一票，1发现2的myid(后续配置)大于自身，把自己的票给服务器2，服务器2有2票还是没有半数以上，两者都looking状态，等服务器3来了，重复操作，服务器3就有3票达到半数以上，服务器3就称为leader,并且服务器1，2改为followeing状态，后续服务器启动，following状态的服务器不会将自己的票投给他们，所以服务器3就是最终的leader。2888端口是zk集群内部的端口是leader和follower之间数据同步等操作使用的端口。

2024-08-02 16:38:16 1154

原创 scala快速入门

1) JDK1.82) Scala环境变量配置Path，能够快速找到scala相关指令3) 测试cmd输入scala即可1.采用var|val关键字声明2.变量名称应该放置在变量类型之前3.var | val 变量名：变量类型 = 变量值4.如果根据变量值可以推断出变量类型,那么变量类型就可以省略1.java中的方法在scala中就是函数，只不过方法是相对类的概念，函数在作用域内有效，方法受到类的约束2.函数就是功能的封装不属于类的，所以函数名不能重复，没有重载重写概念。

2024-07-12 15:56:08 1410 6

原创 Hive中常见的问题以及优化方案

用户表中 user_id 字段为 int，log 表中 user_id 为既有 string 也有 int 的类型，当按照两个表的 user_id 进行 join 操作的时候，默认的 hash 操作会按照 int 类型的 id 进行分配，这样就会导致所有的 string 类型的 id 就被分到同一个 reducer 当中。2.对于业务数据本身的特性，首先是空值产生的数据倾斜问题，常见的就是我们的日志表和业务表进行关联后出现的空值，比如关联字段为user_id,可以将user_id为空的不参与关联。

2024-06-02 09:56:09 853

原创将文件load进hive后，查询数据时末尾数据重复问题

如果你的数据文件中存在空行（即仅包含换行符而没有其他字符的行），Hive 会将这些空行也视为有效的数据行，并尝试将它们插入到表中。原因：在linux中创建person文件时多加了一个回车键，导致多了一行空行。在linux中的/home/debu/创建一个person文件内容是。创建表 drop table if exists person;可以发现同一条数据却出现了两次。将文件load到hive表中。

2024-05-12 13:54:23 425

原创 Kafka流程以及调优

本篇文章将介绍Kafka的详细流程和Kafka生产环境中是如何进行优化的1.1Kafka是什么？Kafka是一种消息队列(Message Queue),是基于发布/订阅模式的,主要用于大数据实时处理领域,一般也可以认为kafka是一个分布式的事件流平台,用于高性能数据管道、流分析、数据集成和关键任务应用。

2024-05-12 13:03:21 798 1

原创 java/scala 连接mysql和redis

rpush users "4,hh,2023-01-20" 插入到尾部。lpush users "3,wz,2023-02-20" 插入到头部。//获取查询的结果并存放到list集合中。//获取redis中集合的长度。//获取connection。//获取数据并填充到集合中。//创建集合存储查询结果。//创建集合存储查询结果。//获取connection连接。//获取数据库连接对象。`scala连接redis数据库`//获取数据并填充到集合中。//准备空集合存储数据。//循环写入到集合中。

2024-04-23 13:53:54 781

原创 Flume流程详细总结

在了解Flume之前先看Flume的定义,从中了解Flume能够给我们带来什么帮助<定义Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构，灵活简单。高可用的，高可靠的如果学习过hadoop或者大数据相关的知识，我们经常能够看到这两个名词,前者能够保证系统在各种故障的时候任然能够保持运行,后者能够保证系统稳定的运行,使得系统不容易发生故障。海量日志采集、聚合和传输。

2024-01-18 14:56:45 1680 1

原创 Yarn工作流程

本篇文章是我使用平板画的一张Yarn工作流程。

2023-12-05 21:57:01 541 1

原创排序算法之归并排序

这样的化1和7就会从头插入,就会覆盖掉6和10所以循环里j要加上left 对于6和10 left为0。我们设置一个临时数组用来存放临时排序后的值,注意排序完成后我们得到一个temp={6,10}的数组。if(Array[s1] <= Array[s2]){//稳定排序的关键。if(Array[s1] <= Array[s2]){//稳定排序的关键。左侧10的下标是left 也是mid 右侧6的下标是mid+1 也是right。

2023-09-07 23:13:10 146 1

原创 MyBatis配置与基础操作

属性id一定要和接口中的名一样,然后参数类型parameterType 如果参数是一个类,那就存放类的路径,如果是int...就直接放int,对于String要放java.lang.String。接下来配置实体类文件,因为表不只有一个,所以以后实体类也不只有一个,所以我们创建一个目录来存放实体类文件。首先在mapper 里的namespace="..."里面放的是我们写的接口的路径。对于参数,主要是看操作,例如插入操作我们需要给每一个字段插入数据,就传一个对象。//利用读取的文件生成工厂。

2023-08-10 17:22:56 228 1

原创 Mysql8之窗口函数

文章内容是关于Mysql8的窗口函数的使用,内容会结合我做到的相关题目或者结合相关业务的分析来进行写作,可能并不全但后续会进行补充.

2023-08-06 09:45:51 174

原创 JDBC简介

普通执行SQL语句 Statement stmt=conn.createStatement//获取执行对象stmt.executeUpdate(sql):执行DML(对数据增删改)，DDL(表/库的曾增删改查)返回值：int类型的值表示DML语句影响的行数stmt.executeQuery(sql):执行DQL(数据的查询)返回值：ResultSet 结果集对象以DDL为例测试第一种,结果用count接收表示被影响的行数。

2023-07-23 20:10:51 124 1

原创 static/final/abstract 3个修饰符的总结

访问修饰符+abstract+类型+变量名（abstract和访问修饰符可交换位置）抽象方法没有方法体。当类中有抽象方法时,需要将类声明为抽象类注意abstract class顺序不能变。抽象类不能单独实例化(new 对象),但可以声明引用。abstract只能修饰类和方法,不能修饰属性。一个非抽象类继承了抽象类后必须重写父类的全部抽象方法。抽象方法不能使用private,final,static修饰。抽象类中不一定有构造方法。

2023-07-09 10:28:54 164 1

原创 Hadoop之HDFS总结

想要知道HDFS是什么,我们要先了解一下HDFS是在什么背景下产生的, 随着我们时代的不断发展,数据量也,在存不下所有的数据,像我们正常的Windows操作系统下,磁盘的空间也不是很大,当然可以扩大,但是不如分配到更多的操作系统管理的磁盘中,这样也就产生了一个问题,这么多的操作系统该如何去呢?由此我们迫切的需要一种系统来管理多台机器上的文件,这样就产生了所谓的分布式文件管理系统,而HDFS就是分布式文件管理系统中的一种。

2023-06-02 23:55:42 492

原创 BigInteger的用法

最近在做题的过程中经常遇到大数的阶乘求和,所以想总结一下java中BigInteger的用法。

2023-05-19 12:40:21 2414 1

原创 java代码块

java类的五大成员分别是属性、方法、构造器(构造函数)、代码块、内部类本篇文件将向大家介绍其中之一的代码块。

2023-04-22 15:11:33 2644

原创 IO流的总结

文件 ,这个我们并不陌生的词汇,是保存数据的地方 ,它可以保存图片,视频等等。

2023-04-17 23:36:17 164 1

原创 java集合学习总结

java集合的总结。

2023-04-01 11:50:54 336

原创 String类

对java中String类的理解。

2023-03-26 14:58:44 216 1

原创对java包装类的学习

对于java中包装类的总结.

2023-03-25 14:38:46 176

j218255的博客