小柔的-优快云博客

原创 Flume的安装及使用

-Dflume.root.logger=INFO,console 表示flume运行时动态修改flume.root.logger参数属性值，并将控制台日志打印级别设置为INFO级别，日志级别包括： log、info、warn、 error。 Flume1监控文件内容变动，将监控到的内容分别给到flume2和flume3，flume2将内容写到HDFS, Flume3将数据写到本地文件系统。 -f 表示flume启动读取的配置文件。监控端口，将数据打印至控制台。

2024-04-23 20:45:56 1746

原创 datax介绍和用法

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。DataX本身作为数据同步框架，将不同数据源的同步抽象为从源头数据源读取数据的Reader插件，以及向目标端写入数据的Writer插件，理论上DataX框架可以支持任意数据源类型的数据同步工作。

2024-04-23 20:43:12 1398

原创 Kettle的安装及简单使用

1 、什么是kettleKettle是一款开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。2 、Kettle工程存储方式（ 1 ）以XML形式存储（ 2 ）以资源库方式存储(数据库资源库和文件资源库)3 、Kettle的两种设计4 、Kettle的组成5 、kettle特点在实际企业开发中，都是在本地环境下进行kettle的job和Transformation开发的，可以在本地运行，也可以连接远程机器运行。

2024-04-23 20:40:06 7228

原创 SQOOP安装及使用

*注意：对于sqoop可以直接使用命令模式加上参数，同时参数和参数值在同一行末尾使用 \ 表示当前行的命令未结束，下一行继续编辑同时 --e 参数中的 $ 需要使用反斜杠将其取消转义 **参数，指定分割键，以确定每个map任务到底读取哪一部分数据，最好指定数值型的列，最好指定主键（或者分布均匀的列=>避免每个map任务处理的数据量差别过大）7、实际上sqoop在读取mysql数据的时候，用的是JDBC的方式，所以当数据量大的时候，效率不是很高。2、当指定的Map任务数>1，那么需要结合。

2024-04-23 20:23:00 1457

原创 Phoenix

Hbase适合存储大量的对关系运算要求低的NOSQL数据，受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作。Hbase很优秀，一些团队寻求在Hbase之上提供一种更面向普通开发人员的操作方式，Apache Phoenix即是。Phoenix 基于Hbase给面向业务的开发人员提供了以标准SQL的方式对Hbase进行查询操作，并支持标准SQL中大部分特性:条件运算,分组，分页，等高级查询语法。

2024-04-23 20:18:24 1061

原创 Hbase

HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。HBase – Hadoop Database，是一个高可靠性、高性能、、可伸缩、实时读写的分布式NoSQL数据库利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据（列存 NoSQL 数据库）逻辑上，HBase的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。

2024-04-23 20:14:44 1172

原创 hbase安装

regionservers 中内容改为 node1 node2。查看Hadoop和Zookeeper是否启动。在master上传jar包并解压。hbase shell 进入。

2024-04-23 20:04:03 912 2

原创 zookeeper的HA步骤

上传配置文件至master的 /usr/local/soft/hadoop-3.1.1/etc/hadoop 并分发其他节点。执行同步没有格式化的NN上执行在另外一个namenode上面执行（在node1上执行）格式化ZK 在已经启动的namenode上面执行（在master上执行）配置node1、node2 环境变量添加 HADOOP_HOME。配置用户在三个节点中的环境变量添加如下内容并source生效。格式化在一台NN上执行（在master上执行）启动JN 存储hdfs元数据。

2024-04-23 20:02:36 661

原创 zookeeper

Zookeeper作用？Zookeeper是一个高效的分布式协调服务，可以提供配置信息管理、命名、分布式同步、集群管理、数据库切换等服务。它不适合用来存储大量信息，可以用来存储一些配置、发布与订阅等少量信息。Zookeeper应用场景：Hadoop、Storm、消息中间件、RPC服务框架、分布式数据库同步系统都需要依赖Zookeeper做信息同步简介：客户端发起事务请求，事务请求的结果在整个Zookeeper集群中所有机器上的应用情况是一致的。

2024-04-23 20:02:09 896 2

原创 zookeeper原理详解

ZooKeeper是一个开源的分布式协调服务框架，为分布式系统提供一致性服务。那么什么是分布式？什么是协调程序？和集群又有什么区别？举一个例子来说明，现在有一个网上商城购物系统，并发量太大单机系统承受不住，那我们可以多加几台服务器支持大并发量的访问需求，这个就是所谓的Cluster集群。如果我们将这个网上商城购物系统拆分成多个子系统，比如订单系统、积分系统、购物车系统等等，然后将这些子系统部署在不同的服务器上，这个时候就是 Distributed分布式。

2024-04-23 19:59:29 1780

原创 HIVE 优化完整

Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如：SELECT * FROM emp;在这种情况下，Hive 可以简单地读取 emp 对应的存储目录下的文件，然后输出查询结果到控制台。在文件中默认是more，老版本hive默认是minimal，该属性修改为more以后，在全局查找、字段查找、limit查找等都不走 mapreduce。</</</</案例实操：把设置成none，然后执行查询语句，都会执行 mapreduce 程序。把。

2024-04-23 19:44:34 943

原创 HIVE 查询

hive查询以及自定义函数UDF,UDTF，exploded炸裂函数

2024-04-23 19:39:11 1220

原创 Hive笔记

Hive笔记

2024-04-21 21:10:50 1313

原创 Redis高级

以日志的形式来记录每个写操作（增量保存），将Redis执行过的所有写指令记录下来(读操作不记录)，只许追加文件但不可以改写文件，redis启动之初会读取该文件重新构建数据，换言之，redis 重启的话就根据日志文件的内容将写指令从前到后执行一次以完成数据的恢复工作。

2024-04-18 20:12:10 716

原创 Redis

Redis基础

2024-04-18 20:03:37 1058

原创 Git学习与码云实战

Git学习与码云实战

2024-04-17 15:12:58 876

转载 Hadoop

HadoopHadoop3.x在centos上的完全分布式部署（包括免密登录、集群测试、历史服务器、日志聚集、常用命令、群起脚本）1. 环境准备三台虚拟机，192.168.68.101、192.168.68.102、192.168.68.103《win10下VMware15安装CentOS7虚拟机》JDK（自行准备）hadoop安装包（官网下载地址：https://hadoop.apache.org/releases.html）2. 创建用户1.创建hadoop用户，并修改hadoop用户

2024-02-03 19:35:09 552

原创 hadoop编程实例

OutputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了OutputFormat接口。默认输出格式是TextOutputFormat当需要输出数据到MySQL/HBase/Elasticsearch等存储框架时需要自定义OutputFormat。定义OutputFormat步骤：1.自定义一个类继承FileOutputFormat2.改写RecordWriter，具体改写输出数据的方法wtite（）/*

2024-02-03 19:33:36 1428

原创 Hadoop笔记

大数据指高速 (Velocity) 涌现的大量 (Volume) 多样化 (Variety) 具有一定价值（ Value ）并且真实（ veracity ）的数据，其特性可简单概括为 5V高速: 数据每秒产生的速度相对比较块大量: 数据总量一般比较庞大，所考虑的存储和计算与一般的其他技术会不一样。

2024-02-03 19:33:04 1033

原创 Git实操

Git工具的出现,可以帮助开发者完成多人协同开发，是一个开源的分布式版本控制系统对于一个开发的线性的单向的过程称为一个分支，当一个Git仓库创建好，默认会产生一个master 主分支，所有的提交流程都在主分支中进行增加或回退。

2024-02-03 19:28:33 859

原创 Java 网络编程超详细总结

Java的网络编程主要涉及到的内容是Socket编程。Socket，套接字，就是两台主机之间逻辑连接的端点。TCP/IP协议是传输层协议，主要解决数据如何在网络中传输，而HTTP是应用层协议，主要解决如何包装数据。Socket是通信的基石，是支持TCP/IP协议的网络通信的基本操作单元。它是网络通信过程中端点的抽象表示，包含进行网络通信必须的五种信息：连接使用的协议、本地主机的IP地址、本地进程的协议端口、远程主机的IP地址、远程进程的协议端口。

2024-02-02 10:11:39 1148

原创 Java 反射

反射是获得一个类所有内容的重要特性，实际上我们的虚拟机就是通过反射的方式来获取类对象的。反射的应用场景非常多，比如Jdk早期的Serializable接口，虽然没有内容，但是JVM加载一个类的时候如果发现这个类是继承了这些接口的，那么我就认为这个类是需要被序列化的。而框架中应用到更多的是注解，如果通过一个类的反射对象获得的注解中包含某某注解，我们就开启某某功能的支持。比如@lombok反射是一种在运行时动态地获取类的信息并操作其成员（字段、方法、构造函数等）的能力。

2024-02-02 10:11:08 749

原创 Java Json解析方式以及IDEA的Json转换插件

① Json 表示的是文本数据的一种表示格式 ② Json 格式的文件在数据开发过程中经常能够使用到 ③ 一个JONS表示为一个对象(没有方法的对象)，那么就有属性名和属性值数据形式 => Key Value形式 => Key表示为属性名 Value表示属性值 Json文件中的数据有固定的格式。

2024-02-02 10:10:44 3660

原创 Java的Mysql使用

通过Java的方式连接Mysql中的数据库，并对数据库中的数据进行增加查询操作使用Mysql所提供的第三方库中的类(Mysql的API) 对其进行操作将Mysql Jar包添加到lib目录后，就可以使用其中的类对其Mysql数据库进行操作。

2024-02-02 10:08:26 1757

原创 Java内置函数式接口

只包含一个抽象方法的接口，称为函数式接口。可以通过Lambda 表达式来创建该接口的对象。（若Lambda 表达式抛出一个受检异常，那么该异常需要在目标接口的抽象方法上进行声明）。在任意函数式接口上设置@FunctionalInterface注解，这样做可以检查它是否是一个函数式接口，同时javadoc也会包含一条声明，说明这个接口是一个函数式接口。在此之前的PPT中，我们已经定义过函数式接口，但是我们不可能每次都要自己定义函数式接口，实在是太麻烦了。

2024-02-02 10:04:59 364

原创 Java的Lambda表达式使用

Lambda表达式（闭包）：java8的新特性，lambda运行将函数作为一个方法的参数，也就是函数作为参数传递到方法中。使用lambda表达式可以让代码更加简洁。Lambda表达式的使用场景：用以简化接口实现。关于接口实现，可以有很多种方式来实现。例如：设计接口的实现类、使用匿名内部类。但是lambda表达式，比这两种方式都简单。

2024-02-02 10:04:22 1230

原创 Java枚举类

Java枚举类为什么引用枚举类引入枚举类是为了在程序中更方便地定义一组相关的常量。枚举类可以将一组具有相同属性或类型的常量进行封装，使得代码更加清晰、易读，并能提高代码的可维护性和可扩展性。使用枚举类的好处包括：清晰明确：枚举类可以为常量赋予一个有意义的名字，使得代码的含义更加清晰明了。类型安全：枚举类提供了类型安全的保证，避免了传入不合法的参数值。可维护性：通过使用枚举类，可以集中管理相关的常量，当需要修改或添加新的常量时，只需在枚举类中进行修改即可。可读性：使用枚举类可以使代码更加易读，

2024-02-02 10:02:20 1209

原创 Java面对对象

类：类是具有相同属性和服务的一组对象的集合。为属于该类的所有对象提供了统一的抽象描述，其内部包括属性和服务两个主要部分。在面向对象的编程语言中，类是一个独立的程序单位，应该有一个类名并包括属性说明和服务说明两个主要部分。对象：对象是系统中用来描述客观事物的一个实体，是构成系统的一个基本单位。一个对象由一组属性和对这组属性进行操作的一组服务组成。从更抽象的角度来说，对象是问题域或实现域中某些事物的一个抽象，它反映该事物在系统中需要保存的信息和发挥的作用；

2024-02-02 09:59:32 1222

原创 Java多线程

是指一个内存中运行的应用程序，每个进程都有一个独立的内存空间。

2024-01-08 19:44:51 918

原创 Java IO流

inputStream类的功能不足被Scanner解决了OutputStream类的功能不足被PrintStream解决了Reader类功能不足被BufferReader解决了Writer类的功能不足被PrintWriter解决了*/// 读取配置// 写入配置properties.store(fileWriter,"mysql 新增的配置");[外链图片转存中...(img-LXD3mAEk-1704714245434)]### 总结。

2024-01-08 19:44:20 812

原创 Java集合框架

Collection 接口是 List、Set 和 Queue 接口的父接口，该接口里定义的方法既可用于操作 Set 集合，也可用于操作 List 和 Queue 集合。JDK不提供此接口的任何直接实现，而是提供更具体的子接口(如：Set和List)实现。在 Java5 之前，Java 集合会丢失容器中所有对象的数据类型，把所有对象都当成 Object 类型处理；从 JDK 5.0 增加了泛型以后，Java 集合可以记住容器中对象的数据类型。/*。

2024-01-08 19:43:55 1074