
hadoop
文章平均质量分 91
大数据老哥
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
三大组件HDFS、MapReduce、Yarn框架结构的深入解析式地详细学习【建议收藏!】
我们知道目前Hadoop主要包括有三大组件,分别是:分布存储框架(HDFS)、分布式计算框架(MapReduce)、以及负责计算资源调度管理的平台(Yarn),那么今天我们就来解析式的深入学习了解这三大组件。*转载 2021-09-09 15:50:21 · 2544 阅读 · 0 评论 -
最新Hadoop的面试题总结
1、集群的最主要瓶颈 磁盘IO2、Hadoop运行模式 单机版、伪分布式模式、完全分布式模式3、Hadoop生态圈的组件并做简要描述 1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。 2)Flume:一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。 3)Hbase:是一个分布式的、面向列的开源数据库, 利用Hadoop HDFS作为其存储系统。 4)Hive:基于Hadoop的一个数据仓库工具原创 2021-02-09 16:55:50 · 11643 阅读 · 0 评论 -
企业是如何解决HDFS单点问题的?
前言 在早期Hadoop刚出来的时候是没有解决HDFS单点问题的,这就意味着当NameNode的服务器宕机了就会导致整个集群瘫痪,这是非常危险的于是在Hadoop不断的更新下提出了Hadoop HA来解决NameNode单点问题,接下来我们就来聊一聊。解决HDFS单点问题解决方案 解决HDFS点单问题其实可原创 2021-01-30 18:12:42 · 1835 阅读 · 0 评论 -
HDFS是如何设计架构的?
前言 Hadoop到目前为止发展已经有10余年,版本经过无数次的更新迭代,目前业内大家把Hadoop大的版本分为Hadoop1.0、Hadoop2.0、Hadoop3.0 三个版本。一、Hadoop1.0 简介 Hadoop1.0版本刚出来的时候是为了解决两个间题:一是海量数据如何存储的问题,一个是海量数据如何原创 2021-01-27 23:02:27 · 1463 阅读 · 0 评论 -
面试了N多家总结的Hadoop15个高频面试
一、 你说你深刻理解MR的工作流程,你给我讲一下吧1. 在客户端执行submit()方法之前,会先去获取一下待读取文件的信息 2. 将job提交给yarn,这时候会带着三个信息过去(job.split(文件的切片信息),jar.job.xml) 3. yarn会根据文件的切片信息去计算将要启动的maptask的数量,然后去启动maptask 4. maptask会调用InPutFormat()方法区HDFS上面读取文件,InPutFormat()方法会再去 调用 RecordRead()原创 2020-11-26 23:28:40 · 6567 阅读 · 25 评论 -
DATAX快速上手非常详细
前言 博主在工作的过程中有一天公司决定将数据迁移的新的项目上去,当我发现数据库中的表大于有4000多张表的时我顿时懵了下,这数据迁移人力物力消耗的也太大了吧(看DataX的设计)。所以我们可以借助阿里云开源的DataX来解决这个问题。看完这篇掌握以下内容:什么是DataXDataX的设计Datax框架设计、运行原理快速入门一、概论1.1 什么是DataX原创 2020-11-14 16:33:35 · 18158 阅读 · 26 评论 -
快速入门kafka④ 常用命令及API使用
常用命令:创建topicbin/kafka-topics.sh --create --zookeeper node01:2181,node02:2181,node03:2181 --replication-factor 2 --partitions 3 --topic 18BD12-1查看topicbin/kafka-topics.sh--list --zookeeper node01:2...原创 2020-03-20 13:13:29 · 9590 阅读 · 29 评论 -
快速入门kafka③ kafka优点及技术架构
Kafka优点 可靠性强:分布式的,分区,复制和容错 可扩展性:无需停机进行扩展。 耐用性:消息会尽可能快速的保存在磁盘上,持久化。 性能高:对于发布和定于消息都具有高吞吐量,保证零停机和零数据丢失Kafka应用场景 指标分析:用于操作监控数据,分析各种指标。 日志收集:收集各个业务的数据发送到kafka TOPIC里 流式处理:数据实时...原创 2020-03-20 11:04:33 · 9638 阅读 · 29 评论 -
快速入门kafka② kafka集群搭建(初级体验)
一、搭建环境前提安装jdk,安装zookeeper并保证zk服务正常启动二、下载并解压wget http://archive.apache.org/dist/kafka/1.0.0/kafka_2.11-1.0.0.tgztar –zxvf kafka_2.11-1.0.0.tgz -C /export/servers/三、node01服务修改配置文件node...原创 2020-03-17 21:34:02 · 9561 阅读 · 28 评论 -
快速入门kafka① Kafka介绍
一、消息队列消息(Message):是指在应用之间传送的数据,消息可以非常简单,比如只包含文本字符串,也可以更复杂,可能包含嵌入对象。 消息队列(Message Queue):是一种应用间的通信方式,消息发送后可以立即返回,有消息系统来确保信息的可靠专递,消息发布者只管把消息发布到MQ中而不管谁来取,消息使用者只管从MQ中取消息而不管谁发布的,这样发布者和使用者都不用知道对方的存...原创 2020-03-17 21:32:10 · 9269 阅读 · 27 评论 -
Redis 主从复制结构
一、介绍 在Redis中,用户可以通过执行SLAVEOF命令或者设置slaveof选项,让一个服务器去复制(replicate)另一个服务器,我们称呼被复制的服务器为主服务器(master),而对主服务器进行复制的服务器则被称为从服务器(slave),如图所示。二、安装node02与node03执行一下命令yum -y install gcc-c++yum -y...原创 2020-03-16 21:23:54 · 9355 阅读 · 29 评论 -
Redis 数据持久化案例实现
一、介绍 由于redis是一个内存数据库,所有的数据都是保存在内存当中的,内存当中的数据极易丢失,所以redis的数据持久化就显得尤为重要,在redis当中,提供了两种数据持久化的方式,分别为RDB以及AOF,且redis默认开启的数据持久化方式为RDB方式,接下来我们就分别来看下两种方式的配置吧二、RDB介绍及配置RDB持久化是把当前进程数据生成快照保存到硬盘的过程,触发RD...原创 2020-03-16 20:39:42 · 9632 阅读 · 27 评论 -
快速入门MapReduce④ reduce端join与map端join实现
1.需求 订单表商品表实现机制:通过将关联的条件作为map输出的key,将两表满足join条件的数据并携带数据所来源的文件信息,发往同一个reduce task,在reduce中进行数据的串联2.创建join对象package com.czxy.order;import lombok.Data;import lombok.NoArgsConstruct...原创 2020-03-16 11:49:37 · 9476 阅读 · 27 评论 -
快速入门MapReduc① 实现WordCount
目录1.需要处理的数据2.创建maven项目pom.xml3.编写map类4.编写Reduce类5.编写启动类6.执行的结果1.需要处理的数据hello wordword counthello MapReduce2.创建maven项目pom.xml <repositories> <repository> ...原创 2020-03-15 14:30:14 · 8091 阅读 · 26 评论 -
快速入门MapReduce③ MapReduce综合练习之上网流量统计
目录 需求: 1.创建maven项目导入pom.xml 2.自定义map输出value对象FlowBean 3.定义map类 4.定义reduce类 5.定义启动类 6.输入的文件及结果需求:统计每个手机号的上行流量总和,下行流量总和,上行总流量之和,下行总流量之和分析:以手机号码作为key值,上行流量...原创 2020-03-15 17:45:26 · 9381 阅读 · 27 评论 -
快速入门MapReduce② MapReduce的分区与ReduceTask的数量
1.需求这个文本文件,其中第六个字段表示开奖结果数值,现在以15为分界点,将15以上的结果保存到一个文件,15以下的结果保存到一个文件。2.创建maven项目导入所依赖的jar包注意:cdh版本已经不支持本地运行,所以我们用 apache版本<repositories> <repository> <id>...原创 2020-03-15 15:54:44 · 9433 阅读 · 27 评论 -
HadoopHa集群部署
前提1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系 /etc/hosts4.关闭防火墙5.ssh免登陆6.安装JDK,配置环境变量等7.注意集群时间要同步集群的角色分配node01 namenode resourcemanager zkfc nodemanager datanode zookeeper journal no...原创 2020-03-11 20:19:05 · 7595 阅读 · 28 评论 -
HadoopHa介绍及执行流程
HadoopHa 介绍 HA(High Available), 高可用,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,分为活动节点(Active)及备用节点(Standby)。通常把正在执行业务的称为活动节点,而作为活动节点的一个备份的则称为备用节点。当活动节点出现问题,导致正在运行的业务(任务)不能正常运行时,备用节点此时就会侦测到,并立即接续活动节点来执行业务。从而...原创 2020-03-11 19:51:59 · 8376 阅读 · 47 评论 -
Yarn资源调动
1.Yarn介绍Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度。Hadoop1.0的任务调度流程Hadoop2.0的变化2.Yarn三大组件介绍 1.ResourceMan...原创 2020-03-10 19:35:52 · 7708 阅读 · 26 评论 -
HDFS新增结点
1.复制出一台新的虚拟机 2.修改ip和mac地址vim /etc/udev/rules.d/70-persistent-net.rulesvim /etc/sysconfig/network-scripts/ifcfg-eth0 3. 关闭防火墙 selinux关闭防火墙service iptables stop关闭selinuxvim /etc/se...原创 2019-11-06 19:11:10 · 14332 阅读 · 0 评论 -
HDFS API 使用②
由于为了减少代码的重复性所以我选择写2篇的第一篇是环境搭建 链接为:https://blog.youkuaiyun.com/qq_43791724/article/details/102895900初始化 public static String url="hdfs://hadoop01:8020"; FileSystem fileSystem =null; Configu...原创 2019-11-04 15:18:35 · 13118 阅读 · 0 评论 -
HDFS API 使用①
使用开发软件 创建一个maven项目 导入响应的jar包 <properties> <hadoop.version>2.6.0-cdh5.15.1</hadoop.version> </properties> <repositories> <reposito...原创 2019-11-04 14:50:17 · 13627 阅读 · 1 评论 -
Hadoop搭建三台虚拟机
分布式环境搭建一:上传压缩包并加压解压tar -zxvf hadoop-2.6.0-cdh5.14.0.tar.gz -C ../servers/二:查看Hadoop压缩方式cd /export/servers/hadoop-2.6.0-cdh5.14.0 bin/hadoop checknative...原创 2019-10-31 18:16:00 · 15621 阅读 · 0 评论 -
Hadoop 环境搭建1
配置hadoop 1.1上传hadoop1.2解压到指定目录tar -zxvf hadoop-2.7.3.tar.gz -C ../install/2.修改环境变量vim /etc/profile.d/hadoop.sh export HADOOP_HOME=/...原创 2019-10-24 17:35:49 · 13184 阅读 · 5 评论