
大数据
文章平均质量分 75
包含平时学习的大数据组件的使用、以及异常问题的解决方案
夏夜迷
每天进步0.01%,消除迷茫
展开
-
ClickHouse初级学习
文章目录一、第一章:入门1. 背景一、第一章:入门1. 背景ClickHouse是俄罗斯的Yandex于2016年开源的列式存储数据块库(DBMS),使用C++语言编写,主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。...原创 2022-04-30 15:45:56 · 1497 阅读 · 0 评论 -
Druid架构详解(1)
Druid的节点类型分为:Overload、MiddleManager、Coordinator、Historical 、Broker。Druid架构Overload和MiddleManager主要负责数据摄入(对于没有发布的segment,MiddleManage也提供查询服务);Coordinator和Historical负责历史数据的查询;Coordinator:是Historical的master节点Broker节点主要负责接收Client查询请求,拆分子查询给MiddleMan.原创 2021-11-09 16:01:32 · 3890 阅读 · 0 评论 -
hadoop:yarn页面测试关注点
现在日志分为:swift_manage日志:/data/br/logs/swift/swift_api日志:/data/br/logs/swift/swift_compute启动日志:/data/br/logs/swift/swift_compute运行日志:/data/br/base/hadoop/logshadoop:yarn管理页面可以查看spark的实例个数以及内存大小2.yarn管理页面看实例global中配置实例的位置:一般一个任务有2个进程:driver:固定一个实例,e原创 2022-04-25 16:55:13 · 3289 阅读 · 0 评论 -
大数据生态体系
1、Sqoop: Sqoop是一款开源的工具,主要用于Hadoop、Hive与传统的数据库(Mysql)间进行数据的传递,可以 将一个关系型数据库中的数据导进Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库。2、Flume: Flume是一个高可用的、高可靠的,分布式的海量日志采集、集合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于数据数据;3、Kafka: Kafka是一种高吞吐量的分布式发布订阅消息系统;4、Spark: Spark是当前最流行的开源大数据内.原创 2022-01-28 11:44:42 · 421 阅读 · 0 评论 -
HDFS、YARN、MapReduce概述及三者之间的关系
一、HDFS架构概述1、NameNode(nn): 存储文件的元数据,如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。2nn:每隔一段时间对NameNode元数据备份...原创 2022-01-27 18:12:41 · 8548 阅读 · 4 评论 -
Hadoop NameNode HA模式
为什么要Namenode HA?实现高可用(ansible部署namenode节点下配置两个主机组)Namenode HA如何实现,关键技术难题是什么?如何保持主备NameNode的状态同步,并让Standby(备)在Active(主)挂掉后迅速提供服务,namenode启动比较耗时,包括加载fsimage和editlog(获取file to block信息),处理所有datanode第一次blockreport(获取block to datanode信息),保持NN的状态同步,需要这两部分信息同步原创 2021-12-10 19:05:24 · 366 阅读 · 0 评论