
大数据
文章平均质量分 56
hadoop
pchexf
这个作者很懒,什么都没留下…
展开
-
入门Hbase
HBase采用Master/Slave架构搭建集群,它隶属于Hadoop生态系统,由一下类型节点组成: HMaster 节点、HRegionServer 节点、 ZooKeeper 集群,而在底层,它将数据存储于HDFS中,因而涉及到HDFS的NameNode、DataNode等,总体结构如下: HMaster节点用于:1.管理HRegionServer,实现其负载均衡。管理和分配HR...原创 2019-08-25 10:00:48 · 144 阅读 · 0 评论 -
日志收集系统-Flume架构
Flume概述Flume是由 Cloudera 提供的一个分布式、高可靠、高可用的服务,用于分布式的海量日志的高效收集、聚合、移动系统。简单来说,Flume 就是一个针对日志数据进行采集和汇总的一个工具(把日志从A地方移动到B地方)Flume Event事件对象被定义数据流中一个单元,Event数据流的有效载荷(body)为采集到的一条记录,Event Head中可以添加一些可选的KV的描...原创 2019-08-25 11:10:41 · 176 阅读 · 0 评论 -
最简单流处理引擎-Kafka Streaming
Kafka StreamingKafka Streams是一个用于构建应用程序和微服务的客户端库,其中的输入和输出数据存储在Kafka集群中。它结合了在客户端编写和部署标准Java和Scala应用程序的简单性,以及Kafka服务器端集群技术的优点。Topology(拓扑):表示一个流计算任务,等价于MapReduce中的job。不同的是MapReduce的job作业最终会停止,但是Topolo...原创 2019-09-08 20:46:12 · 670 阅读 · 0 评论 -
Kettle介绍入门
KETTLE一、概述1.kettle是什么kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色安装,数据抽取高效稳定。中文名称 叫水壶,该项目的主程序员MATT希望把各种数据放到一个壶里,然后以一种指定的格式流出。2.kettle四大家族Chef(中文:厨师)-工作(job)设计工具(GUI方式)Kitchen(中文:厨房)-工作...原创 2020-04-04 15:27:24 · 1966 阅读 · 0 评论 -
Hadoop文件系统元数据(MetaData)的持久化
**Hadoop文件系统元数据(MetaData)的持久化**HDFS名称空间由NameNode存储。NameNode使用名为EditLog的事务日志来持久记录文件系统元数据发生的每个更改。例如,在HDFS中创建新文件会导致NameNode将记录插入EditLog,以指示此情况。同样,更改文件的复制因子会导致将新记录插入EditLog。NameNode使用其本地主机OS文件系统中的文件来存储...原创 2019-08-18 19:59:00 · 834 阅读 · 0 评论