hadoop
文章平均质量分 95
jinYwuM
每个阶段,都做最好的自己。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop中分片split的原理解析
一、定义 1、block:block是物理切块,在文件上传到HDFS文件系统后,对大文将以每128MB的大小切分若干,存放在不同的DataNode上; 2、split:split是逻辑切片,在mapreduce中的map task开始之前,将文件按照指定的大小切割成若干个部分,每一部分称为一个split,默认是split的大小与block的大小相等,均为128MB。 注意:在hadoop1....原创 2018-08-06 19:53:33 · 4573 阅读 · 0 评论 -
Hadoop2.7.4完全分布式环境搭建
软件版本 虚拟机管理软件:VMware WorkStation Pro 12.0 操作系统:CentOS 6.7 Hadoop:Hadoop 2.7.4 JDK:jdk-8u65-linux-x64.tar.gz 一、环境准备 1、修改各个节点主机名:vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=node1 2、修改主机名和I...原创 2018-08-03 01:29:52 · 1455 阅读 · 0 评论 -
通过漫画轻松掌握HDFS工作原理
转 通过漫画轻松掌握HDFS工作原理 <div class="article-info-box"> <div class="article-bar-top d-转载 2018-08-08 23:35:00 · 416 阅读 · 0 评论 -
Hadoop集群实现HA
软件版本: CentOS 6.7 jdk-8u171-linux-x64.tar.gz zookeeper-3.4.12.tar.gz hadoop-2.7.4-with-centos-6.7.tar.gz 一、集群部署节点角色的规划 1、集群部署节点角色的规划(7节点) node01 namenode zkfc node02 namenode zkfc...原创 2018-08-27 22:47:58 · 388 阅读 · 0 评论 -
Flume NG高可用集群搭建
软件版本: CentOS 6.7 hadoop-2.7.4 apache-flume-1.6.0 一、Flume NG简述 Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。 Flume将采集到的文件,socket数据包等各种形式的数据源,输出到HDFS、Hbase、hive、kafka等众多外部存储系统中 Flume针对特殊场景...原创 2018-09-10 23:15:44 · 1428 阅读 · 0 评论 -
flume拦截器
摘要: 拦截器是简单的插件式组件,设置在source和channel之间。source接收到的时间,在写入channel之前,拦截器都可以进行转换或者删除这些事件。每个拦截器只处理同一个source接收到的事件。可以自定义拦截器。 flume内置了很多拦截器,并且会定期的添加一些拦截器,在这里列出一些flume内置的,经常使用的拦截器。 一、拦截器的种类介绍 1、Timestamp Int...原创 2018-09-11 03:02:32 · 15880 阅读 · 0 评论 -
MapReduce运行模式
MapReduce运行模式 1、本地模式 OR 集群模式 // 设置为local时,运行模式为本地模式 config.set("mapreduce.framework.name", "local"); // 设置为yarn时,运行模式为集群模式 config.set("mapreduce.framework.name", "yarn"); 2、数据文件的输入输出路径 // 设置输入输...原创 2019-07-18 00:07:30 · 539 阅读 · 0 评论
分享