
Hadoop
文章平均质量分 87
原价99,🔥火爆订阅中(逐步恢复原价)最全最详细的Hadoop快速入门+实操教程。深入讲解Hadoop框架原理,通过Hadoop集群搭建详细教程让你快速入门,MapReduce实战案例轻松掌握MR任务开发流程,以及Hadoop知识点总结都是面试必问理论知识,快来订阅吧!
笑看风云路
曾转战过大唐电信,京东等一线互联网企业,目前在一家互联网金融公司,从事开发工作。专注于分享大数据相关技术,包括Hadoop、Spark、Flink、Kafka、Hive、 HBase等,让我们在大数据技术的道路上一起努力前行,遇见更好的自己!
展开
-
NameNode与DataNode删除块逻辑分析
最近有位小伙伴在生产环境执行 Spark SQL任务的出现了Unable to close file because the last block does not have enough number of replicas. 的错误,大致意思是最后一个 block 快没有足够的副本而不能关闭文件。最近看了一篇文章写了关于这个问题的分析,我也分享给你,希望你在遇到这样的问题的时候,提供一种解决问题的思路。转载 2023-06-21 16:04:34 · 931 阅读 · 5 评论 -
Hadoop知识点总结——数据倾斜解决方法
在Mapper加上combiner相当于提前进行reduce,即把一个Mapper中的相同key进行了聚合,减少shuffle过程中传输的数据量,以及Reducer端的计算量。第一次在map阶段对那些导致了数据倾斜的key 加上随机前缀,这样本来相同的key 也会被分到多个Reducer中进行局部聚合,数量就会大大降低。第二次mapreduce,去掉key的随机前缀,进行全局聚合。思想:二次mr,第一次将key随机散列到不同reducer进行处理达到负载均衡目的。第二次再根据去掉key的随机前缀,按原k原创 2022-06-14 09:53:33 · 312 阅读 · 0 评论 -
Hadoop知识点总结——HDFS小文件过多问题、解决方法
每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。每个小文件都会对应启动一个MapTask,1个MapTask默认内存1G,造成资源浪费。HDFS存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入HDFS块,在减少NameNode内存使用的同时,允许对文件进行透明的访问。具体说来,HDFS存档文件对内还是一个一个独立文件,对NameNode而言却是一个整体,减少了NameNode的内存。Com原创 2022-06-14 09:41:52 · 2233 阅读 · 0 评论 -
Mapreduce实例(十):ChainMapReduce
MR实现ChainMapReduce原创 2022-06-02 09:47:41 · 376 阅读 · 0 评论 -
Mapreduce实例(九):Reduce端join
MR实现Reduce端join原创 2022-06-02 09:13:42 · 438 阅读 · 0 评论 -
Mapreduce实例(八):Map端join
MR实现Map端join原创 2022-06-01 21:09:32 · 502 阅读 · 0 评论 -
Mapreduce实例(七):单表join
MR实现单表join原创 2022-06-01 18:39:20 · 386 阅读 · 0 评论 -
Mapreduce实例(六):倒排索引
MR实现倒排索引原创 2022-06-01 16:57:54 · 3132 阅读 · 1 评论 -
Mapreduce实例(五):二次排序
MR实现二次排序原创 2022-06-01 15:44:08 · 1401 阅读 · 0 评论 -
Mapreduce实例(四):自然排序
MR 实现 自然排序原创 2022-05-31 23:20:29 · 466 阅读 · 0 评论 -
Hadoop知识点总结——MapReduce的Shuffle
MapReduce的Shuffle过程详解原创 2022-05-31 22:18:19 · 402 阅读 · 0 评论 -
Mapreduce实例(三):数据去重
MR实现数据去重原创 2022-05-31 15:58:34 · 2832 阅读 · 0 评论 -
Mapreduce实例(二):求平均值
MR 实现 求平均值实现思路编写代码Mapper代码Reducer代码完整代码大家好,我是风云,欢迎大家关注我的博客 或者 微信公众号【笑看风云路】,在未来的日子里我们一起来学习大数据相关的技术,一起努力奋斗,遇见更好的自己!实现思路求平均数是MapReduce比较常见的算法,求平均数的算法也比较简单,一种思路是Map端读取数据,在数据输入到Reduce之前先经过shuffle,将map函数输出的key值相同的所有的value值形成一个集合value-list,然后将输入到Reduce端,Reduce原创 2022-05-31 14:14:39 · 3699 阅读 · 0 评论 -
Mapreduce实例(一):WordCount
MapReduce实现WordCount原创 2022-05-30 23:00:41 · 2042 阅读 · 0 评论 -
Hadoop知识点总结——MapReduce
MapReduce核心思想以及体系结构原创 2022-05-30 21:16:24 · 576 阅读 · 0 评论 -
Hadoop知识点总结——HDFS基本概念以及体系结构
Hdfs的基本概念以及体系结构!原创 2022-05-30 15:32:10 · 2888 阅读 · 0 评论 -
Hadoop知识点总结——HDFS常用命令
hadoop常用命令的学习!原创 2022-05-30 14:50:10 · 323 阅读 · 0 评论 -
Hadoop 知识点总结——HDFS读流程和写流程
HDFS读流程和写流程前言HDFS的读数据流程HDFS的写数据流程大家好,我是风云,欢迎大家关注我的博客【笑看风云路】,在未来的日子里我们一起来学习大数据相关的技术,一起努力奋斗,遇见更好的自己!前言HDFS作为Hadoop中的一个重要组件,那么它的读数据和写数据的流程是怎样的呢?今天就来分享一下HDFS的内部的运行机制。HDFS的读数据流程描述:hdfs客户端向NameNode发送下载请求,请求中携带目标文件NameNode节点响应下载请求,返回目标文件的元数据客户端就会根据元数据去数原创 2022-05-25 11:29:50 · 915 阅读 · 0 评论 -
Hive安装超详细教程
Hive3.1.2安装教程前言初始准备安装Hive的具体步骤1、下载hive安装包2、解压3、添加Hive核心配置,选择远程MySQL模式4、下载连接MySQL的驱动包到hive的lib目录下5、在MySQL上创建Hive的元数据存储库6、执行Hive的初始化工作7、验证初始化是否成功8、使用hive9、使用beeline...原创 2022-05-19 22:01:24 · 15764 阅读 · 7 评论 -
Spark集群搭建超详细教程
前言在上一篇文章《Hadoop集群搭建配置教程》中详细介绍了Hadoop集群搭建的全部过程,今天为大家带来分布式计算引擎Spark集群搭建,还是使用三个虚拟机节点上进行安装部署,围绕Standalone模式和Yarn模式的这两种部署模式进行展开。集群搭建具体步骤注意:以下步骤均在hadoop1节点上进行操作,特殊说明除外!Standalone模式1、下载spark-3.0.0的jar包下载地址:https://archive.apache.org/dist/spark/spark-3.0.原创 2022-05-19 09:32:09 · 15935 阅读 · 4 评论 -
Hadoop集群搭建配置教程
Hadoop3.1.3集群搭建前言集群规划集群搭建具体步骤1、下载`hadoop-3.1.3.tar.gz`2、上传并解压3、配置`path`变量4、修改配置文件4.1 修改文件`hadoop-env.sh`4.2 修改文件workers4.3 修改文件`core-site.xml`4.4 修改文件`hdfs-site.xml`4.5 修改文件`mapred-site.xml`4.6 修改文件 `yarn-site.xml`5、把`/opt/module/hadoop`复制到其他节点上6、在其他节点上操作7原创 2022-05-19 00:35:28 · 8281 阅读 · 2 评论