
大数据学习
文章平均质量分 80
认真刷视频,做笔记,实操
abstract学习
这个作者很懒,什么都没留下…
展开
-
zookeeper
echo ---------- zookeeper $i 停止 ------------echo ---------- zookeeper $i 状态 ------------echo ---------- zookeeper $i 启动 ------------找到zookeeper/conf下对zoo_sample.cfg改名(ps:因为系统不会认)1)在hadoop102的/home/wyr/bin目录下创建脚本。修改vi /etc/profile.d/my_env.sh。2)增加脚本执行权限。原创 2025-02-28 17:14:33 · 544 阅读 · 0 评论 -
大数据环境搭建进度
1.使用虚拟机的系统:centos7.xLinux2.资源不足,使用云服务器:1.3.使用远程登录进行操作用xshell4.任务1.虚拟机装好2.设置IP地址3.可以联网4.设置远程登录访问5.创建module和software目录,修改两个目录的权限6.克隆两台虚拟机,修改每台主机的hosts文件7.安装jdk,设置jdk环境变量让环境变量生效[hadoop@hadoop103[hadoop@hadoop1048.设置免密登录。原创 2025-01-12 23:48:16 · 1139 阅读 · 1 评论 -
HDFS 的API的操作
在项目的src/main/resources目录下,新建一个文件,命名为“log4j.properties”,在文件中填入。log4j.rootLogger=INFO, stdout //什么级别的日志,在控制台打印输出。1)拷贝hadoop-3.1.X到非中文路径(比如d:\)。-- 添加一个操作hadoop的依赖包-->//设置dfs不需要权限。//获取hdfs文件系统。-- 单元测试 -->-- 日志包 -->解决在hdfs.site.xml。原创 2025-01-10 16:17:31 · 969 阅读 · 0 评论 -
hdfs与mapreduce
1)HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。2)HDFS定义HDFS),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景。原创 2025-01-08 14:00:28 · 780 阅读 · 0 评论 -
集群时间同步
当该节点丢失网络连接,依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步。(3)修改hadoop102的/etc/sysconfig/ntpd 文件。(b)修改2(集群在局域网中,不使用其他互联网上的时间)网段上的所有机器可以从这台机器上查询和同步时间)(2)在其他机器配置1分钟与时间服务器同步一次。增加内容如下(让硬件时间与系统时间一起同步)(4)1分钟后查看机器是否与时间服务器同步。(a)修改1(授权192.168.(5)设置ntpd服务开机启动。(3)修改任意机器时间。原创 2025-01-08 10:52:55 · 672 阅读 · 0 评论 -
3.1配置历史服务器
为了查看历史的情况1.修改mapreduce 然后分发重启sbin/start-dfs.sh sbin/stop-dfs.sh启动历史服务器日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS系统上。 日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。注意:开启日志聚集功能,需要重新启动NodeManager 、ResourceManager和HistoryServer。开启日志聚集功能具体步骤如下:vi yarn-site.xml hdfs dfs -rm -原创 2025-01-07 16:21:42 · 896 阅读 · 0 评论 -
Hadoop运行模式
以及。生产环境不用。个别缺钱的公司用来测试,生产环境不用。生产环境使用。原创 2025-01-06 23:08:42 · 918 阅读 · 0 评论 -
hadoop环境搭建
vmware161.1创建虚拟机向导选择典型“下一步“安装镜像文件磁盘大小设置30gb开启虚拟机选择第一个install centos1)设置时间2)选择磁盘3)打开虚拟网卡设置root用户密码123456创建hadoop用户密码hadoop。原创 2025-01-05 21:32:41 · 299 阅读 · 0 评论 -
Hadoop概述
简称HDFS,是一个分布式文件系统。简称YARN,另一种资源协调者,是Hadoop的资源管理器。MapReduce将计算过程分为两个阶段:Map和Reduce1)Map阶段并行处理输入数据2)Reduce阶段对Map结果进行汇总。原创 2025-01-05 15:18:01 · 775 阅读 · 0 评论 -
大数据实训1
进入虚拟机选择第一个 install。点击硬盘 建议不要装桌面。以太网打开 查看IP地址。高手选1 我们选二(自定义)原创 2024-12-30 10:58:22 · 211 阅读 · 0 评论