- 博客(9)
- 收藏
- 关注
原创 HDFS,YARN,MapReduce
MapReduce是一种简化并行计算的编程模型,用于大量数据量的计算MapReduce是一个分布式运算的编程框架,是用户开发基于Hadoop数据分析应用的核心框架。
2025-06-10 11:16:50
781
原创 hadoop配置文件,参数的优先级
参数优先级排序:(1)客户端代码中设置的值(2)ClassPath下的用户自定义的配置文件(project下的配置文件,例如/root/IdeaProjects/hdfs/Client/src/main/resources/hdfs-sit.xml)(3)服务器的自定义配置文件(XXX-site.xml路径为/usr/local/hadoop/etc/hadoop)(4)服务器的默认配置(XXX-default.xml)
2025-05-12 10:19:52
328
原创 HDFS理论
随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS至少分布式文件管理系统的一种。
2025-04-07 10:28:17
1007
原创 实验一:统计字符个数
6.运行MapReduce WordCount例子。3.在HDFS创建ketanginput文件。4.将ketang.txt上传到HDFS。2.编辑ketang.txt文件。5.查看是否上传成功。
2025-03-24 10:22:13
206
原创 配置并启动Hadoop集群
可以查看各个节点启动的进程。在浏览器输入master的ip 172.18.0.2:9870 查看节点状态。目录下的配置文件,这里仅设置正常启动必须的设置项,包括。4、修改文件mapred-site.xml。5、修改文件yarn-site.xml。6、修改文件hadoop-env.sh。2、修改文件core-site.xml。3、修改文件hdfs-site.xml。(3.x需要配置)共6个文件。配置集群环境时,需要修改。1、修改文件workers。将整个文件替换为如下内容。
2025-03-18 11:51:55
767
原创 Hadoop3安装部署
执行scp复制文件时会要求输入相应的slave的密码,默认为:83953588abc。注意:由于启动Hadoop集群时,master节点需要通过ssh登录自身节点(使用如下3条命令,确认可以从master无密码ssh登录到各个slave节点。root@master:/usr/local/java: 原本要被复制的地方。这样就可以在master节点上无密码SSH登录到各个slave节点了。root@slave1:/usr/local/java: 粘贴的地方。目录下,将安装包解压,并删除用过的tar文件。
2025-03-11 20:22:20
562
原创 大数据 知识
Bigtable是Google公司的分布式数据存储系统,是用来处理海量数据的一种非关系类型数据库。2003年,Google公司发表论文The Google File System,介绍GFS分布式文件系统,主要讲解海量数据和可靠存储方法。1.结构化数据:有固定格式,关系型数据库(Mysql),excel,交易记录。自然语言处理NPL:文本文件,图片,音乐,二进制数据,游戏。管理节点:数据元文件(文件名,文件块,文件所在数据节点)2.variety:来源多,格式多。3.非结构化数据:无固定格式。
2025-03-03 19:33:36
176
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅