- 博客(3)
- 资源 (1)
- 收藏
- 关注

原创 Apache Flume
1.概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。 Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sink)后,flume在删除自己缓存的数据。 Flume支持定制各...
2018-12-12 20:25:25
183
原创 Hadoop中NameNode和DataNode的概述
NameNode 概述 a、 NameNode 是 HDFS 的核心。 b、 NameNode 也称为 Master。 c、 NameNode 仅存储 HDFS 的元数据:文件系统中所有文件的目录树,并跟踪整 个集群中的文件。 d、 NameNode 不存储实际数据或数据集。数据本身实际存储在 DataNodes 中。 e、 NameNode 知道 HDFS 中任何给定文件的块列表及其...
2018-12-08 20:07:06
1556
原创 Hadoop写数据流程
1、 client 发起文件上传请求,通过 RPC 与 NameNode 建立通讯,NameNode 检查目标文件是否已存在,父目录是否存在,返回是否可以上传; 2、 client 请求第一个 block 该传输到哪些 DataNode 服务器上; 3、 NameNode 根据配置文件中指定的备份数量及机架感知原理进行文件分 配,返回可用的 DataNode 的地址如:A,B,C; 注: H...
2018-12-08 19:56:11
325
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人