- 博客(66)
- 收藏
- 关注
原创 设计模式之单例模式
设计模式(design pattern):针对软件开发过程中的某一类问题形成的方案。到目前为止,在软件开发过程中,有上百种设计模式,其中比较常用的有24种。单例模式(Singleton)是设计模式中最常见、最简单的模式之一 ,属于构建/建造型模式。单例模式,顾名思义,指的是在全局只存在唯一的一个实例对象。双重锁(DCL - Double Check Lock)
2024-04-13 15:38:02
1164
原创 Day2-Hive的多字段分区,分桶和数据类型
简述Hive的多字段分区(如省市县),分桶(用于对数据随机抽样检测),常用数据类型(timyint,smallint,int,bigint,floot,double,string,binary,map)
2024-04-04 21:42:32
1597
原创 Day5-Hive的结构和优化、数据文件存储格式
简述 order by 、sort by ;hive存储文件格式、hive设计结构、hive优化
2024-04-01 19:03:32
1193
原创 2-HDFS常用命令及上传下载流程
简述了NameNode的安全模式,SecondaryNameNode,DataNode,机架及副本感知策略,客户端上传下载文件的流程,及分布式中重要的RPC请求
2024-03-28 19:17:15
1915
原创 3-Flume之拦截器与GangLia监控
实际过程中,可以使用Ganglia监控Flume的数据流。Ganglia是Berkeley发起的一个开源的集群监控项目,可以检测数以千计的节点的性能Ganglia包含三个模块gmond(Ganglia Monitoring Daemon):轻量级的监控服务,需要监控哪一个节点的性能,就在这个节点上安装gmond服务,可以监控当前节点(系统)的各种指标数据:CPU、内存、磁盘、网络等信息。
2024-03-26 18:46:44
1264
原创 2-Flume之Sink与Channel
自定义Sink的时候,需要定义一个类继承,实现Sink接口,最好还要实现接口来获取配置。注意,自定义Sink的过程中,需要关注事务问题。依赖和笔记1中用的一样。//打印流,打印到文件或者Flume的窗口。sout调用的就是这个类中的方法@Override//从flume中的格式文件中获取路径信息@Overrideif(!Event e;
2024-03-25 18:53:57
1452
原创 笔记1-Hadoop之HDFS的NameNode
开源版本的HADOOP和其他框架的对应关系很混乱,要注意。Hadoop四大模块:Common HDFS MapReduce YarnHadoop能对大量的数据进行分布式处理,可以轻松的从一台服务器扩展到千台服务器,并且 每一台服务器都能进行本地计算和存储。Hadoop还提供了用于处理和探测异常的机制。
2024-03-23 16:14:31
1518
原创 0-Flume(1.11.0版本)在Linux(Centos7.9版本)的安装(含Flume的安装包)
需要注意的是,从Flume1.10.0版本开始,Flume将log4j 1.x替换为了log4j 2.x,因此导致输出数据的时候,默认是将数据写到。Flume本身是由Java开发的,所以需要服务器上安装好JDK1.8(注意区分Linux还是Windows系统的JDk)。一些官网和github上给的是源码,需要自己根据自己的操作系统手动编译为软件,较为复杂。文件中,但是学习过程中,希望数据能够直观展现(打印到控制台上),所以需要修改配置。#首先确认自己的Linux是Centos版本,运行命令。
2024-03-21 18:20:23
912
原创 1-Flume中agent的source
/ 自定义代码实现Sequence Generator Source,加深理解 public class AuthDrivenSource extends AbstractSource implements EventDrivenSource , Configurable {// 获取参数值 @Override public void configure(Context context) {
2024-03-21 17:59:48
1344
原创 大数据培训之Zookeeper零基础-1
在大数据中,几乎所有的框架,它的安装都提供了三种模式单机模式:在一台服务器上安装,往往能够启动这个框架的部分服务伪分布式:在一台服务器上安装,但是利用多个线程模式分布式环境,能够启动这个框架的大部分甚至于服务分布式:在集群上安装,能够启动这个框架的所有服务现阶段,先安装单机模式,搞定所有的概念之后,再到集群中安装。
2024-03-05 14:34:12
1079
原创 Linux笔记-2
默认情况下,虚拟机和笔记本一样,采用的都是动态IP - 每次联网都会在当前网段内随机分配一个IP实际过程中,虚拟机一般需要自己固定静态IP步骤查看网络编辑器中VMnet8对应的网段编辑文件修改属性在文件末尾添加重启网络查看ifconfig测试能否连接外网。
2024-03-04 18:37:30
983
原创 Linux笔记-3
Shell是一个命令解释器,接收用户/程序的操作/指令,然后将指令解析之后交给操作系统的内核来执行Shell本身也可以看作是一门编程语言,相对易于书写,灵活性很强Linux中提供了Shell解析器sh是bash的软链接,所以执行sh和使用bash的效果是相同的Centos中默认使用的是/bin/bash。
2024-03-04 18:36:36
926
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人