- 博客(5)
- 收藏
- 关注
原创 Kafka基础架构
(1)Producer:消息生产者,就是向Kafka broker发消息的客户端。 (2)Consumer:消息消费者,向Kafka broker取消息的客户端。 (3)Consumer Group(CG):消费者组,由多个consumer组成。消费者组内每个消费者负责消费不同分区的数据,一个分区只能由一个组内消费者消费;消费者组之间互不影响。所有的消费者都属于某个消费者组,即消费者组是逻辑上的一个订阅者。 (4)Broker:一台Kafka服务器就是一个broker。一个集群由多个broker组成。
2022-05-19 16:06:25
306
原创 Flume基础架构
1、Agent Agent是一个jvm进程,它以事件的形式将数据从源头送至目的地。 Agent主要有3个部分组成,Source、Channel、Sink 2、Source Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型,各种格式的日志数据 3、Sink Sink不断地轮询Channel中的事件且批量的移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。 4、Channel Channel是位于Source和Si
2022-05-19 15:07:07
308
原创 Hadoop集群的xsync分发脚本
#!/bin/bash #1.判断参数个数 if [ $# -lt 1 ] then echo Not Enough Arguement! exit; fi #2. 遍历集群所有机器 for host in hadoop102 hadoop103 hadoop104 do echo ==================== $host ==================== #3. 遍历所有目录,挨个发送 for file in $@ ...
2022-05-05 21:10:53
996
原创 Hadoop小文件解决方案
1)小文件优化的方向: (1)在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS。 (2)在业务处理之前,在HDFS上使用MapReduce程序对小文件进行合并。 (3)在MapReduce处理时,可采用CombineTextInputFormat提高效率。 (4)开启uber模式,实现jvm重用 2)Hadoop Archive 是一个高效的将小文件放入HDFS块中的文件存档工具,能够将多个小文件打包成一个HAR文件,从而达到减少NameNode的内存使用 3)Com
2022-05-04 19:28:15
1949
原创 Hadoop常用的调优参数
1)资源相关参数 (1)以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml) 配置参数 参数说明 mapreduce.map.memory.mb 一个MapTask可使用的资源上限(单位:MB),默认为1024。如果MapTask实际使用的资源量超过该值,则会被强制杀死。 mapreduce.reduce.memory.mb 一个ReduceTask可使
2022-05-04 19:21:49
208
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人