- 博客(7)
- 收藏
- 关注
原创 HBase架构模型
每个表一开始只有一个 HRegion,随着数据不断插入表,HRegion 不断增大,当增大到指定阀值(10G)的时候,HRegion 就会等分成两个 HRegion,切分后其中一个 HRegion 会被转移到其他的 HRegionServer 上,实现负载均衡。也就是说这个时候,所有的读写请求都会访问到同一个 HRegionServer 的同一个 HRegion 中,这个时候就达不到负载均衡的效果了,集群中的其他 HRegionServer 可能处于比较空闲的状态。HBase 集群主要由。
2023-03-31 15:57:30
180
原创 Zookeeper集群搭建
首先将三台虚拟机切换到相互免秘钥快照(keyfree)上传 Zookeeper,解压,拷贝修改配置文件修改日志路径(选做)拷贝Zookeeper创建myid(123分别指node01,node02,node03)设置环境变量开启集群关机拍摄快照zookeeper是一个树状结构,维护一个小型的数据节点znode数据以keyvalue的方式存在,目录是数据的key所有的数据访问都必须以绝对路径的方式呈现。
2023-03-31 15:55:26
153
原创 数仓需求分析与设计
数据采集传输:Flume、Kafka、Sqoop、DataX、Logstash。数据可视化:Echarts、Superset、QuickBI、DataV。数据存储:Mysql、HDFS、HBase、Redis、MongoDB。任务调度:Azkaban、Oozie、DolphinScheduler。数据计算:Hive、Tez、Spark、Flink、Storm。数据查询:Presto、Kylin、Impala、Druid。集群监控:Zabbix、Ganglia、Prometheus。元数据管理:Atlas。
2023-03-30 21:32:05
411
原创 Hive简介
Hive 的前生属于 Facebook,用于解决海量结构化数据的统计分析,现在属于 Apache 软件基金会。Hive 是一个构建在Hadoop 之上的。
2023-03-09 15:49:50
162
原创 MapReduce的工作流程
Collect 阶段:在用户编写的 map() 函数中,数据处理完成后,一般会调用 outputCollector.collect() 输出结果,在该函数内部,它会将生成的 key / value 分片(通过调用 partitioner ),并写入一个环形内存缓冲区中(该缓冲区默认大小是 100MB )。Reduce 阶段:对排序后的键值对调用 reduce() 方法,键相等的键值对调用一次 reduce()方法,每次调用会产生零个或者多个键值对,最后把这些输出的键值对写入到 HDFS 中。
2023-03-07 08:28:08
2208
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人