gaosenlin66-优快云博客

原创 flink事件匹配数据并写入kafka和mysql

kafak-flink-mysql

2023-08-25 09:01:16 405 1

每个表一开始只有一个 HRegion，随着数据不断插入表，HRegion 不断增大，当增大到指定阀值（10G）的时候，HRegion 就会等分成两个 HRegion，切分后其中一个 HRegion 会被转移到其他的 HRegionServer 上，实现负载均衡。也就是说这个时候，所有的读写请求都会访问到同一个 HRegionServer 的同一个 HRegion 中，这个时候就达不到负载均衡的效果了，集群中的其他 HRegionServer 可能处于比较空闲的状态。HBase 集群主要由。

2023-03-31 15:57:30 228

原创 Zookeeper集群搭建

首先将三台虚拟机切换到相互免秘钥快照（keyfree）上传 Zookeeper，解压，拷贝修改配置文件修改日志路径(选做)拷贝Zookeeper创建myid（123分别指node01,node02,node03）设置环境变量开启集群关机拍摄快照zookeeper是一个树状结构，维护一个小型的数据节点znode数据以keyvalue的方式存在，目录是数据的key所有的数据访问都必须以绝对路径的方式呈现。

2023-03-31 15:55:26 185

原创数仓需求分析与设计

数据采集传输：Flume、Kafka、Sqoop、DataX、Logstash。数据可视化：Echarts、Superset、QuickBI、DataV。数据存储：Mysql、HDFS、HBase、Redis、MongoDB。任务调度：Azkaban、Oozie、DolphinScheduler。数据计算：Hive、Tez、Spark、Flink、Storm。数据查询：Presto、Kylin、Impala、Druid。集群监控：Zabbix、Ganglia、Prometheus。元数据管理：Atlas。

2023-03-30 21:32:05 477

原创 Hive简介

Hive 的前生属于 Facebook，用于解决海量结构化数据的统计分析，现在属于 Apache 软件基金会。Hive 是一个构建在Hadoop 之上的。

2023-03-09 15:49:50 219

原创 MapReduce的工作流程

Collect 阶段：在用户编写的 map() 函数中，数据处理完成后，一般会调用 outputCollector.collect() 输出结果，在该函数内部，它会将生成的 key / value 分片(通过调用 partitioner )，并写入一个环形内存缓冲区中(该缓冲区默认大小是 100MB )。Reduce 阶段：对排序后的键值对调用 reduce() 方法，键相等的键值对调用一次 reduce()方法，每次调用会产生零个或者多个键值对，最后把这些输出的键值对写入到 HDFS 中。

2023-03-07 08:28:08 2344

原创 Java基础知识面试题大集合

Java基础面试题

2022-08-10 00:01:05 2722

weixin_44901473的博客