2501_90813563-优快云博客

原创 HDFS，YARN，MapReduce

MapReduce是一种简化并行计算的编程模型，用于大量数据量的计算MapReduce是一个分布式运算的编程框架，是用户开发基于Hadoop数据分析应用的核心框架。

2025-06-10 11:16:50 781

原创 HDFS的API调用

1.mavenmaven版本管理。

2025-05-12 19:48:32 294

参数优先级排序：（1）客户端代码中设置的值（2）ClassPath下的用户自定义的配置文件（project下的配置文件，例如/root/IdeaProjects/hdfs/Client/src/main/resources/hdfs-sit.xml）（3）服务器的自定义配置文件（XXX-site.xml路径为/usr/local/hadoop/etc/hadoop）（4）服务器的默认配置（XXX-default.xml）

2025-05-12 10:19:52 328

原创 HDFS的shell操作

hadoop fs 查看hdfs的所有命令。

2025-04-27 18:48:20 848

原创 HDFS理论

随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS至少分布式文件管理系统的一种。

2025-04-07 10:28:17 1007

原创实验一：统计字符个数

6.运行MapReduce WordCount例子。3.在HDFS创建ketanginput文件。4.将ketang.txt上传到HDFS。2.编辑ketang.txt文件。5.查看是否上传成功。

2025-03-24 10:22:13 206

原创配置并启动Hadoop集群

可以查看各个节点启动的进程。在浏览器输入master的ip 172.18.0.2:9870 查看节点状态。目录下的配置文件，这里仅设置正常启动必须的设置项，包括。4、修改文件mapred-site.xml。5、修改文件yarn-site.xml。6、修改文件hadoop-env.sh。2、修改文件core-site.xml。3、修改文件hdfs-site.xml。(3.x需要配置)共6个文件。配置集群环境时，需要修改。1、修改文件workers。将整个文件替换为如下内容。

2025-03-18 11:51:55 767

原创 Hadoop3安装部署

执行scp复制文件时会要求输入相应的slave的密码，默认为：83953588abc。注意：由于启动Hadoop集群时，master节点需要通过ssh登录自身节点(使用如下3条命令，确认可以从master无密码ssh登录到各个slave节点。root@master:/usr/local/java: 原本要被复制的地方。这样就可以在master节点上无密码SSH登录到各个slave节点了。root@slave1:/usr/local/java: 粘贴的地方。目录下，将安装包解压，并删除用过的tar文件。

2025-03-11 20:22:20 562

原创大数据知识

Bigtable是Google公司的分布式数据存储系统，是用来处理海量数据的一种非关系类型数据库。2003年，Google公司发表论文The Google File System，介绍GFS分布式文件系统，主要讲解海量数据和可靠存储方法。1.结构化数据：有固定格式，关系型数据库（Mysql），excel，交易记录。自然语言处理NPL：文本文件，图片，音乐，二进制数据，游戏。管理节点：数据元文件（文件名，文件块，文件所在数据节点）2.variety：来源多，格式多。3.非结构化数据：无固定格式。

2025-03-03 19:33:36 176

2501_90813563的博客