
Hadoop
文章平均质量分 79
yield-bytes
Java高级后端、大数据开发、Python高级开发、数据分析与挖掘
展开
-
基于YARN HA集群的Spark HA集群
文章目录前言1、yarn HA模式的配置1.1 完整 yarn-site.xml配置1.2 mapred-site.xml的配置文件说明1.3 yarn HA的启动2、spark HA 集群及其基本测试2.1 修改spark配置2.2 启动spark集群3、spark on yarn3.1 spark集群跑在yarn上的两种方式3.2 测试spark on yarn前言 在前面的《基于h...原创 2019-12-08 18:06:08 · 1253 阅读 · 0 评论 -
在hadoopHA节点上部署flume高可用组件
文章目录前言1、flume 的基本介绍1.1 基本介绍1.2 数据流模型2、flume的配置文件说明2.1 配置过程3、单点flume agent测试3.1 基本安装3.2 启动flume agent进程3.3 将source.type配成tail F4、flume高可用配置4.1 三个agent的flume配置4.2 配置 collector前言前面的blog已实现了hadoopHA的项...原创 2019-11-24 16:17:22 · 1153 阅读 · 0 评论 -
hadoop平台网络配置bond模式实现高可用
文章目录项目背景1、为测试服务器添加多个网卡2、查看测试服务器的网卡信息3、配置两个网卡3.1 这里需要先把原网卡配置拷贝一份作为备份。3.2 将ens33和ens37配成slave模式4、配置bond0虚拟网卡5、bond0的配置说明和工作原理6、 加载内核bond模块 modprobe bonding7、查看bond0虚拟网卡状态并测试主备网卡切换项目背景 在前面文章关于hadoop大数...原创 2019-11-19 20:54:57 · 528 阅读 · 0 评论 -
MapReduce设计原理
(注意本文主要为个人理解、记忆以及归档而整理的技术文章,所以用词、句以个人易于理解的方式去组织。)1、MR基本定义参考百度百科定义,简要概括如下:MapReduce是分布式的计算框架或者解决方案,大致有基本内容:1)首先MapReduce重点是工作在集群的节点上,而非在单台服务器上做计算、做统计等2)MapReduce把用户提交的任务以分布式放在多个节点上执行,自动划分计算数据和计算任务...原创 2019-10-27 11:37:02 · 738 阅读 · 0 评论 -
基于Hadoop HA集群部署HBase HA集群(详细版)
前面的博客中链接1、前言已经给出Hadoop3.1.2和yarn的完整部署(但还不是高可用),此篇博客将给出Hadoop的高可用部署,以及HBase高可用,为之后应用数据层开发提供底层的BigTable支持。前面的文章,我们已经深入讨论的ZooKeeper这个中间件的原理以及分布式锁的实现,事实上zookeeper使用最广泛的场景是“选举”主从角色,Hadoop以及Hbase的高可用(主从架构...原创 2019-10-28 22:26:17 · 5139 阅读 · 5 评论 -
理解HDFS文件系统架构和原理
1、hadoop是一种具体的技术吗?准确的说,hadoop是一套大数据的解决方案或者技术栈,不仅仅特指某种大数据技术,由Apache基金会上多个与大数据有关的明星组件构成,包括HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统)、Spark、Hive、Hbase、Mahout、Zookeeper、Flume等,如下图所示。本文将重点讨论HDFS、YAR...原创 2019-10-15 19:34:10 · 847 阅读 · 0 评论 -
基于Centos7.5完整部署分布式Hadoop3.1.2
1、相关安装包以及规划考虑本地测试使用,这里所使用的三台服务器均有虚拟机创建,每台配置:1个vCPU+1G内存+9G硬盘Hadoop:Hadoop-3.1.2JDK: jdk1.8.0_161Ip角色hadoop路径Hostnamejdk路径linux版本192.188.0.4NameNode,Datanode,NodeManager/opt/hadoop-...原创 2019-10-10 21:15:02 · 604 阅读 · 0 评论