小毛子爱学习-优快云博客

原创 Kafka基础架构

（1）Producer：消息生产者，就是向Kafka broker发消息的客户端。（2）Consumer：消息消费者，向Kafka broker取消息的客户端。（3）Consumer Group（CG）：消费者组，由多个consumer组成。消费者组内每个消费者负责消费不同分区的数据，一个分区只能由一个组内消费者消费；消费者组之间互不影响。所有的消费者都属于某个消费者组，即消费者组是逻辑上的一个订阅者。（4）Broker：一台Kafka服务器就是一个broker。一个集群由多个broker组成。

2022-05-19 16:06:25 341

原创 Flume基础架构

1、AgentAgent是一个jvm进程，它以事件的形式将数据从源头送至目的地。Agent主要有3个部分组成，Source、Channel、Sink2、SourceSource是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型，各种格式的日志数据3、SinkSink不断地轮询Channel中的事件且批量的移除它们，并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。4、ChannelChannel是位于Source和Si

2022-05-19 15:07:07 337

原创 Hadoop集群的xsync分发脚本

#!/bin/bash#1.判断参数个数if [ $# -lt 1 ]thenecho Not Enough Arguement!exit;fi#2. 遍历集群所有机器for host in hadoop102 hadoop103 hadoop104doecho ==================== $host ====================#3. 遍历所有目录，挨个发送for file in $@...

2022-05-05 21:10:53 1043

原创 Hadoop小文件解决方案

1）小文件优化的方向：（1）在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS。（2）在业务处理之前，在HDFS上使用MapReduce程序对小文件进行合并。（3）在MapReduce处理时，可采用CombineTextInputFormat提高效率。（4）开启uber模式，实现jvm重用2）Hadoop Archive是一个高效的将小文件放入HDFS块中的文件存档工具，能够将多个小文件打包成一个HAR文件，从而达到减少NameNode的内存使用3）Com

2022-05-04 19:28:15 2012

原创 Hadoop常用的调优参数

1）资源相关参数（1）以下参数是在用户自己的MR应用程序中配置就可以生效（mapred-default.xml）配置参数参数说明 mapreduce.map.memory.mb 一个MapTask可使用的资源上限（单位:MB），默认为1024。如果MapTask实际使用的资源量超过该值，则会被强制杀死。 mapreduce.reduce.memory.mb 一个ReduceTask可使

2022-05-04 19:21:49 241

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人