
小坏讲大数据(Hadoop) 第一阶段
文章平均质量分 87
以实战搭建大数据集群、Hadoop集群、大数据分析
小坏讲微服务
熟悉各种微服务架构、一个菜鸟级别的后端小白、啥时候月薪过万呀、让你学习不在发愁的网站:https://www.e404e.cn
展开
-
Hadoop3.x 之学习总结干完了,也忘完了 (第十四章)
Hadoop3.x 之学习总结干完了,也忘完了请关注的我的学习网站、大家一起月薪过万*hadoop 历经 1月零几天终于干完了、也忘完了、不要怕继续在复习总结一下、就开始干ZK了、好期待 * _ 距离我学完大数据还有百分之九十八、距离月薪过万还是百分之九十八遥遥无期啊、不废话了、还得搬砖了、月薪20k 加油_...原创 2021-08-17 16:01:34 · 153 阅读 · 0 评论 -
Hadoop3.x 之源码解析完整使用 (第十三章)
Hadoop3.x 之学习问题总结123123原创 2021-08-16 19:24:47 · 889 阅读 · 2 评论 -
Hadoop3.x 之 生产调优手册完整使用 (第十二章)
这里写目录标题第 1章 HDFS—核心参数第 2 章 HDFS—集群压测第 3 章 HDFS—多目录第 4 章 HDFS—集群扩容及缩容第 5 章 HDFS—存储优化第 6 章 HDFS—故障排除第 7 章 HDFS—集群迁移第 8 章 MapReduce 生产经验第 9 章 Hadoop-Yarn 生产经验第 10 章 Hadoop 综合调优第 1章 HDFS—核心参数第 2 章 HDFS—集群压测第 3 章 HDFS—多目录第 4 章 HDFS—集群扩容及缩容第 5 章 HDFS—存储优化第原创 2021-08-10 14:20:21 · 1497 阅读 · 1 评论 -
Hadoop3.x 之 Yarn资源调度器 (第十一章)
我孤零零的写代码,成为了除了CRUD啥都不会,为了过上好生活拿我一月的饭钱买个服务器、想让别人成为我这样的CRUD的大老、微服务、架构、容器、资源、不在发愁如何学习了、网站:https://www.e404e.cn原创 2021-08-02 16:12:37 · 1275 阅读 · 1 评论 -
Hadoop3.x 之 Hadoop 数据压缩 (第十章)
这里写目录标题概述1、压缩的好处和坏处2、压缩原则MR 支持的压缩编码1、压缩算法对比介绍2、压缩性能的比较压缩方式选择Gzip 压缩Bzip2 压缩Lzo 压缩Snappy 压缩压缩位置选择压缩参数配置1、为了支持多种压缩/解压缩算法,Hadoop 引入了编码/解码器2、要在 Hadoop 中启用压缩,可以配置如下参数压缩实操案例1、Map 输出端采用压缩概述1、压缩的好处和坏处压缩的优点:以减少磁盘 IO、减少磁盘存储空间。压缩的缺点:增加 CPU 开销。2、压缩原则(1)运算密集型的 Jo原创 2021-08-02 15:06:50 · 516 阅读 · 1 评论 -
Hadoop3.x 之 MapReduce 开发总结(月薪过万)
Hadoop之 MapReduce开发总结开发总结1、输入数据接口:InputFormat2、逻辑处理接口:Mapper3、Partitioner 分区4、Comparable 排序5、Combiner 合并6、逻辑处理接口:Reducer7、输出数据接口:OutputFormat开发总结在编写MapReduce程序时,需要考虑如下几个方面:1、输入数据接口:InputFormat默认使用的实现类是:TextInputFormatTextInputFormat 的功能逻辑是:一次读一行文本,然后原创 2021-08-02 11:44:01 · 221 阅读 · 0 评论 -
Hadoop3.x 之 MapReduce 框架原理(月薪过万 第九章下)
这里写目录标题一级目录二级目录三级目录MapTask工作机制ReduceTask 工作机制ReduceTask 并行度决定机制MapTask 源码解析流程ReduceTask 源码解析流程一级目录二级目录三级目录MapTask工作机制(1)Read 阶段:MapTask 通过 InputFormat 获得的 RecordReader,从输入 InputSplit 中解析出一个个 key/value。(2)Map 阶段:该节点主要是将解析出的 key/value 交给用户编写 map()函数处理原创 2021-07-29 16:33:07 · 355 阅读 · 0 评论 -
Hadoop3.x 之 MapReduce 框架原理(月薪过万 第九章中)
三、MapReduce 框架原理InputFormat 可以对输入、进行一个控制、读出来之后、交给MapperoutputFormat 想要写到呐(不想输出到文件、可以到MySQL,ES) (就回去mapper拉取)1、InputFormat 数据输入切片与 MapTask 并行度决定机制1)问题引出MapTask 的并行度决定 Map 阶段的任务处理并发度,进而影响到整个 Job 的处理速度。思考:1G 的数据,启动 8 个 MapTask,可以提高集群的并发处理能力。那么原创 2021-07-29 16:13:50 · 567 阅读 · 3 评论 -
Hadoop3.x 之 MapReduce 概述 (月薪过万 第九章上)
Hadoop3.x 之 HDFS 概述一、MapReduce 概述1、MapReduce 定义一、MapReduce 概述1、MapReduce 定义MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上。...原创 2021-07-19 14:42:16 · 396 阅读 · 0 评论 -
Hadoop3.x 之 HDFS DataNode (月薪过万 第八章)
Hadoop3.x 之 HDFS DataNode一、DataNode 工作机制1、DataNode工作机制2、数据完整性3、掉线时限参数设置一、DataNode 工作机制1、DataNode工作机制(1)一个数据块在 DataNode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2)DataNode 启动后向 NameNode 注册,通过后,周期性(6 小时)的向 NameNode 上报所有的块信息。DN 向 NN原创 2021-07-13 18:50:41 · 405 阅读 · 3 评论 -
Hadoop3.x 之 HDFS NameNode 和 SecondaryNameNode (月薪过万 第七章)
NameNode 和 SecondaryNameNode机制一、NN 和 2NN 工作机制1、思考1、NameNode工作机制2、分析3、Secondary NameNode 工作二、Fsimage 和 Edits 解析1、Fsimage和Edits概念2、oiv 查看 Fsimage 文件1、查看 oiv 和 oev 命令2、基本语法3、案例实操3、oev 查看 Edits 文件1、基本语法2、案例实操三、CheckPoint 时间设置1、通常情况下,SecondaryNameNode 每隔一小时执行一次原创 2021-07-13 18:26:53 · 958 阅读 · 0 评论 -
Hadoop3.x 之 HDFS 写数据流程 完整使用 (月薪过万 第六章)
Hadoop3.x 之 HDFS 写数据流程 完整使用一、刨析文件的写入二、网络拓朴-节点距离计算三、机架感知(副本存储节点选择)四、HDFS 读数据流程一、刨析文件的写入二、网络拓朴-节点距离计算三、机架感知(副本存储节点选择)四、HDFS 读数据流程...原创 2021-07-12 17:18:29 · 918 阅读 · 0 评论 -
Hadoop3.x 之 HDFS 完整使用 (月薪过万 第五章)
Hadoop3.x 之 HDFS 完整使用一、HDFS 概述1、HDFS 产生背景2、HDFS 定义3、HDFS 优点4、HDFS 缺点二级目录三级目录一、HDFS 概述1、HDFS 产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种2、HDFS 定义HDFS(Hadoop Distributed File Sy原创 2021-07-09 12:10:38 · 802 阅读 · 4 评论 -
Hadoop 3.x完整使用的 集群搭建 (月薪过万 第四章)
Hadoop 3.x完整使用的 集群搭建一、介绍一、准备环节1、三台虚拟机2、安装依赖1. 安装net-too2. 安装 vim3. 关闭防火墙4. 创建用户5. 配置 hadoop100 用户具有 root 权限6. 在/opt 目录下创建文件夹二、Hadoop集群配置1、克隆三台机器2、初始化虚拟机三步骤1. 修改静态ip2. 查看 Linux 虚拟机的虚拟网络编辑器3. 查看 Windows 系统适配器 VMware Network Adapter VMnet8 的 IP 地址4. 修改克隆机主机名5原创 2021-07-08 15:10:43 · 685 阅读 · 2 评论 -
Hadoop 3.x 的组成 完整使用 (月薪过万 第三章)
Hadoop 的组成介绍HDFS 的架构概述1、HDFS概述2、HDFS 举例2.1 NameNode(nn)2.2 DataNode(dn)2.3 Secondary NameNode(2nn)二、YARN 概述三、MapReduce 架构概述四、HDFS、YARN、MapReduce 三者关系五、大数据技术生态体系1、名词解释2、推荐系统图HDFS 的架构概述2nn 相当于老板的秘书、主动把NameNode 备份1、HDFS概述Hadoop Distributed File System,简原创 2021-07-05 18:06:09 · 800 阅读 · 11 评论 -
Hadoop3.x 是什么介绍 完整使用 (月薪过万 第二章)
这里写目录标题一、Hadoop 是什么1、Hadoop 是什么二、Hadoop 发展历史(了解)1、Hadoop 发展历史2、Hadoop 三大发行版本(了解)1、Apache Hadoop2、Cloudera Hadoop3、Hortonworks Hadoop三、Hadoop优势1、高可靠性2、高扩展性3、高效性4、高容错性三、Hadoop 组成1、Hadoop1.x、2.x、3.x区别一、Hadoop 是什么1、Hadoop 是什么1)Hadoop是一个由Apache基金会所开发的分布式系统基础原创 2021-07-05 16:30:32 · 244 阅读 · 4 评论 -
大数据之 Hadoop 3.x 之概念学习 (月薪过万 第一章)
大数据概念一、大数据概念1、大数据2、理解3、解决4、数据存储单位二、大数据的特点1、Volume(大量)2 、Velocity(高速 )3、Variety(多样)4、Value(低价值密度)三、大数据应用场景1、抖音推荐的都是你喜欢的视频2、电影站内广告推荐3、零售4、物流存储5、保险6、金融7、房产8、人工智能四、大数据发展前景1、党的十九大提出“推动互联网、大数据、人工智能和实体经济深度融合2、2020年初,中央推出34万亿“新基建”投资计划一、大数据概念1、大数据大数据无法在一定时间范围内内,原创 2021-07-05 16:29:29 · 286 阅读 · 0 评论