Yuuuuuuhs-优快云博客

原创 Yarn

什么是YARNYARN是一种通用资源调度框架，不仅仅支持MapReduce3.Yarn架构3.1y。

2025-06-18 16:02:55 584

设置份数为2份，在这之前设置了project 下的配置文件，Iroot/ldeaProjects/hdfsClient/src/main/resources/hdfs-site. xml份数为1份，服务器的自定义配置文件/usr/local/hadoop/etc/hadoop/hdfs-site.xml份数为3份。（这里我把正确的testPut1漏掉了，重新加上之后执行出来显示文件不存在，因为已经删除，所以我又重新新建了一个文件）2.测试（1）和（2）（3）的优先级顺序。1.测试（2）和（3）的优先级。

2025-06-18 16:01:44 280

原创 HDFS理论相关

随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS（Hadoop Distributed File System）是一个文件系统，用于存储文件，通过目标树来定位文件；其次，他是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

2025-06-18 16:01:20 2135

原创 HDFS读写流程/NN/DN

4. 每次NameNode启动的时候，都会将Fsimage文件读入内存，加载Edits里面的更新操作，保证内存中的元数据信息是最新的、同步的，可以看成NameNode启动的时候就会将Fsimage 和Edits文件进行合并。思考：Fsimage为磁盘文件，当在内存中的元数据更新时，如果同时更新FsImage，就会导致效率过低，但如果不更新，就会发生一致性问题，一旦NameNode节点断电，就会产生数据丢失。每当元数据有更新或者添加元数据时，修改内存中的元数据并追加到Edits中。

2025-06-18 16:00:35 935

原创 HDFS的shell操作

HDFS进行文件操作的主要方式包括shell和Java程序两种。

2025-06-18 16:00:23 1730

原创 wordCount

读取输入文本文件（如统计每个单词的出现次数将结果输出到指定目录（如它通过 MapReduce 的分布式计算模型，将大规模文本处理任务分解为多个并行的 Map 和 Reduce 任务。客户端提交驱动程序将作业 JAR 包和配置信息上传到 HDFS，并向 YARN ResourceManager 请求启动作业。资源分配ResourceManager 分配 Container 资源，启动 ApplicationMaster（作业管理器）。任务调度。

2025-06-18 15:59:41 904

原创 MapReduce

MapReduce是一种简化并行计算的编程模型，用于进行大数据量的计算。MapReduce是一个分布式运算程序的编辑框架，是用户开发“基于Hadoop的数据分析”1.使用场景为了实现控制最终文件的输出路径和输出格式，可以自定义OutputFormat。例如：要在一个MapReduce程序中根据数据的不同输出两类结果到不同目录，这类灵活的输出需求可以通过自定义OutputFormat来实现。2.自定义OutputFormat步骤（1）自定义一个类继承FileOutputFormat。

2025-06-18 15:57:40 696

原创 HDFS的API调用

出现报错，错误原因：“Directory is not empty”新建一个File（此处为jianglanshu.txt）在pom.xml里面删改代码即可成功。在此电脑找到文件路径（如下图）overwrite ：覆盖。在master节点中查看。结果：jj文件夹被删除了。点击运行，查看结果。结果：jdk文件被删除。

2025-06-18 15:55:12 915

原创输出数据OutputFormat案例

输出数据OutputFormat案例：过滤输入的日志，包含atguigu的网站输出到e:/atguigu.log，不包含atguigu的网站输出到e:/other.log。

2025-06-08 20:43:23 35

原创课堂笔记1

大数据 ≠ 海量数据1.Volume大量化（体积）：存储量大，增量大（TB,PB,EB)2.Variety种类多：来源多，格式多来源多（搜索引擎，社交网络，通话记录，传感器……）格式多1.结构化数据：有固定格式。关系型数据库（Mysql），excel，交易记录2.半结构化数据：具有一定层次结构。3.非结构化数据：无固定格式。自然语言处理NLP：文件文本，图片，音乐，二进制数据计算机视觉：人脸识别，物品检测语言识别：语言转文字3.Velocity:快速化。

2025-04-15 10:30:23 633

原创 Hadoop配置

实验使用的Docker镜像保存在tar.gz：- 结合了 `tar` 和 `gzip` 的功能，先使用 `tar` 将多个文件或目录打包成一个文件，然后使用 `gzip` 压缩该文件。- 文件扩展名通常为 `.tar.gz` 或 `.tgz`。

2025-03-31 10:29:52 663

原创实验一：统计字符个数

当 HDFS 进行数据写入时，NameNode 会根据一定的策略将数据块分配到各个 DataNode 节点上进行存储，所以在 Slave 节点的 hadoop.tmp.dir 目录下会有 data 目录，用于存放实际的数据块文件。# 列出current目录下的文件，其中edits文件记录了对 HDFS 文件系统的所有写操作，fsimage文件是 HDFS 文件系统在某个时间点的完整快照，seen_txid记录了已经处理过的事务 ID，VERSION文件包含了 HDFS 的版本信息。

2025-03-29 12:07:13 1972

Yuuuuuuhs的博客