- 博客(13)
- 收藏
- 关注
原创 Hadoop配置文件,参数的优先级
设置份数为2份,在这之前设置了project 下的配置文件,Iroot/ldeaProjects/hdfsClient/src/main/resources/hdfs-site. xml份数为1份,服务器的自定义配置文件/usr/local/hadoop/etc/hadoop/hdfs-site.xml份数为3份。(这里我把正确的testPut1漏掉了,重新加上之后执行出来显示文件不存在,因为已经删除,所以我又重新新建了一个文件)2.测试(1)和(2)(3)的优先级顺序。1.测试(2)和(3)的优先级。
2025-06-18 16:01:44
280
原创 HDFS理论相关
随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS(Hadoop Distributed File System)是一个文件系统,用于存储文件,通过目标树来定位文件;其次,他是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。
2025-06-18 16:01:20
2135
原创 HDFS读写流程/NN/DN
4. 每次NameNode启动的时候,都会将Fsimage文件读入内存,加载Edits里面的更新操作,保证内存中的元数据信息是最新的、同步的,可以看成NameNode启动的时候就会将Fsimage 和Edits文件进行合并。思考:Fsimage为磁盘文件,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦NameNode节点断电,就会产生数据丢失。每当元数据有更新或者添加元数据时,修改内存中的元数据并追加到Edits中。
2025-06-18 16:00:35
935
原创 wordCount
读取输入文本文件(如统计每个单词的出现次数将结果输出到指定目录(如它通过 MapReduce 的分布式计算模型,将大规模文本处理任务分解为多个并行的 Map 和 Reduce 任务。客户端提交驱动程序将作业 JAR 包和配置信息上传到 HDFS,并向 YARN ResourceManager 请求启动作业。资源分配ResourceManager 分配 Container 资源,启动 ApplicationMaster(作业管理器)。任务调度。
2025-06-18 15:59:41
904
原创 MapReduce
MapReduce是一种简化并行计算的编程模型,用于进行大数据量的计算。MapReduce是一个分布式运算程序的编辑框架,是用户开发“基于Hadoop的数据分析”1.使用场景为了实现控制最终文件的输出路径和输出格式,可以自定义OutputFormat。例如:要在一个MapReduce程序中根据数据的不同输出两类结果到不同目录,这类灵活的输出需求可以通过自定义OutputFormat来实现。2.自定义OutputFormat步骤(1)自定义一个类继承FileOutputFormat。
2025-06-18 15:57:40
696
原创 HDFS的API调用
出现报错,错误原因:“Directory is not empty”新建一个File(此处为jianglanshu.txt)在pom.xml里面删改代码即可成功。在此电脑找到文件路径(如下图)overwrite :覆盖。在master节点中查看。结果:jj文件夹被删除了。点击运行,查看结果。结果:jdk文件被删除。
2025-06-18 15:55:12
915
原创 输出数据OutputFormat案例
输出数据OutputFormat案例:过滤输入的日志,包含atguigu的网站输出到e:/atguigu.log,不包含atguigu的网站输出到e:/other.log。
2025-06-08 20:43:23
35
原创 课堂笔记1
大数据 ≠ 海量数据1.Volume大量化(体积):存储量大,增量大(TB,PB,EB)2.Variety种类多:来源多,格式多来源多(搜索引擎,社交网络,通话记录,传感器……)格式多1.结构化数据:有固定格式。关系型数据库(Mysql),excel,交易记录2.半结构化数据:具有一定层次结构。3.非结构化数据:无固定格式。自然语言处理NLP:文件文本,图片,音乐,二进制数据计算机视觉:人脸识别,物品检测语言识别:语言转文字3.Velocity:快速化。
2025-04-15 10:30:23
633
原创 Hadoop配置
实验使用的Docker镜像保存在tar.gz:- 结合了 `tar` 和 `gzip` 的功能,先使用 `tar` 将多个文件或目录打包成一个文件,然后使用 `gzip` 压缩该文件。- 文件扩展名通常为 `.tar.gz` 或 `.tgz`。
2025-03-31 10:29:52
663
原创 实验一:统计字符个数
当 HDFS 进行数据写入时,NameNode 会根据一定的策略将数据块分配到各个 DataNode 节点上进行存储,所以在 Slave 节点的 hadoop.tmp.dir 目录下会有 data 目录,用于存放实际的数据块文件。# 列出current目录下的文件,其中edits文件记录了对 HDFS 文件系统的所有写操作,fsimage文件是 HDFS 文件系统在某个时间点的完整快照,seen_txid记录了已经处理过的事务 ID,VERSION文件包含了 HDFS 的版本信息。
2025-03-29 12:07:13
1972
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅