
Hadoop
文章平均质量分 67
环境搭建到,使用
dddd_疾
这个作者很懒,什么都没留下…
展开
-
大数据2.1克隆模板机
.原创 2022-12-14 17:24:06 · 199 阅读 · 0 评论 -
Hadoop总结
一个MapReduce 作业通常会把输入的数据集切分为若干独立的数据块,由map任务以完全并行的方式处理。HDFS是GFS的开源实现,是Hadoop的底层实现部分,存储Hadoop集群中所有存储节点上的文件。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。NameNode用来管理文件系统的命名空间,其将所有的文件和文件夹的元数据保存在一个文件系统树中。原创 2022-12-20 23:56:21 · 167 阅读 · 0 评论 -
大数据5.3MapReduce(序列化)
Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,Header,继承体系等),不便于在网络中高效传输。然而序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机。(7)如果需要将自定义的bean放在key中传输,则还需要实现Comparable接口,因为MapReduce框中的Shuffle过程要求对key必须能排序。序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。原创 2022-12-19 17:19:45 · 102 阅读 · 0 评论 -
大数据3.4分布式常见错误
原因是在Linux的根目录下/tmp目录中存在启动的进程临时文件,将集群相关进程删除掉,再重新启动集群。(1)在/etc/hosts文件中添加192.168.10.102 hadoop102。9)执行命令不生效,粘贴Word中命令时,遇到-和长–没区分开。10)jps发现进程已经没有,但是重新启动集群,提示进程已经开启。(2)主机名称不要起hadoop hadoop000等特殊名称。5)root用户和atguigu两个用户启动集群不统一。解决办法:尽量不要粘贴Word中代码。2)主机名称配置错误。原创 2022-12-19 16:56:34 · 148 阅读 · 0 评论 -
大数据5.1MapReduce(概述)
MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。原创 2022-12-19 16:58:37 · 81 阅读 · 0 评论 -
大数据1.2配置ip地址
在 C:\Windows\System32\drivers\etc 的hosts文件。输入systemctl stop firewalld.service。使用 sysctemctl status firewalld。然后在Windows的命令行测试。1.配置VMware的IP地址。关闭 Linux 的安全模式。3.在Windows上做映射。2.配置centos的ip。再给Windows 做映射。直接使用root账户登录。进入插入模式输入以下。Active 代表开启。使用ping命令测试。原创 2022-12-14 15:33:56 · 182 阅读 · 0 评论 -
大数据3.3完全分布中
Hadoop配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值。然后敲(三个回车),就会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)known_hosts: 记录ssh访问过计算机的公钥(p)要获取的默认文件 文件存放在Hadoop的jar包中的位置。3).ssh文件夹下(~/.ssh)的文件功能解释。4)在集群上分发配置好的Hadoop配置文件。(3)将公钥拷贝到要免密登录的目标机器上。ssh另一台电脑的IP地址。原创 2022-12-19 16:56:12 · 76 阅读 · 0 评论 -
大数据5.2MapReduce(wordcount)
(3)修改不带依赖的jar包名称为wc.jar,并拷贝该jar包到Hadoop集群的/opt/module/hadoop-3.1.3路径。(2)在项目的src/main/resources目录下,新建一个文件,命名为“log4j.properties”,在文件中填入。(3)创建包名:com.atguigu.mapreduce.wordcount。(1)用maven打jar包,需要添加的打包插件依赖。(2)在IDEA/Eclipse上运行程序。(2)在pom.xml文件中添加如下依赖。原创 2022-12-19 17:12:44 · 149 阅读 · 0 评论 -
大数据4.2HDFS的Shell操作
这里设置的副本数只是记录在NameNode的元数据中,是否真的会有这么多副本,还得看DataNode的数量。3)-chgrp、-chmod、-chown:Linux文件系统中的用法一样,修改文件所属权限。2)-copyFromLocal:从本地文件系统中拷贝文件到HDFS路径去。4)-appendToFile:追加一个文件到已经存在的文件末尾。5)-cp:从HDFS的一个路径拷贝到HDFS的另一个路径。11)-setrep:设置HDFS中文件的副本数量。7)-tail:显示一个文件的末尾1kb的数据。原创 2022-12-19 16:57:38 · 85 阅读 · 0 评论 -
大数据4.1HDFS
1)HDFS产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 2)HDFS定义 HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 HDFS的使用场景:适合一次写入,多次读原创 2022-12-19 16:56:56 · 89 阅读 · 0 评论 -
大数据MapReduce框架原理
问题引出MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。思考:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数据,也启动8个MapTask,会提高集群性能吗?MapTask并行任务是否越多越好呢?哪些因素影响了MapTask并行度?2)MapTask并行度决定机制数据块:Block是HDFS物理上把数据分成一块一块。数据块是HDFS存储数据单位。原创 2022-12-20 20:12:11 · 102 阅读 · 0 评论 -
大数据MR案例:计算学生成绩
利用MR框架,计算每个同学的平均分。然后新建一个maven项目。创建 sinput文件夹。进入hadoop目录。和score.txt。原创 2022-12-20 20:20:56 · 293 阅读 · 0 评论 -
大数据1.1安装centos
。原创 2022-12-14 14:22:32 · 203 阅读 · 0 评论 -
大数据3.3完全分布式下
(1)如果集群是第一次启动,需要在hadoop102节点格式化NameNode(注意:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。如果集群在运行过程中报错,需要重新格式化NameNode的话,一定要先停止namenode和datanode进程,并且要删除所有机器的data和logs目录,然后再进行格式化。(3)在配置了ResourceManager的节点(hadoop103)启动YARN。(b)查看HDFS上存储的数据信息。原创 2022-12-19 16:56:40 · 72 阅读 · 0 评论 -
3.2完全分布式.上
在hadoop103上,将hadoop102中/opt/module/hadoop-3.1.3目录复制到hadoop103上。在hadoop103上操作,将hadoop102中/opt/module目录下所有目录复制到hadoop104上。命令 选项参数 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称。需要输入分别输入hadoop102 和hadoop104的密码。注意:如果用了sudo,那么xsync一定要给它的路径补全。(1)需求:循环复制文件到所有节点的相同目录下。原创 2022-12-19 16:55:35 · 77 阅读 · 0 评论 -
大数据2.2安装软件
.原创 2022-12-14 17:52:52 · 87 阅读 · 0 评论 -
大数据3.1hadoop本地运行
伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。1)Hadoop官方网站:http://hadoop.apache.org/2)Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。本地模式:单机运行,只是用来演示一下官方案例。完全分布式模式:多台服务器组成分布式环境。如果wcoutput存在就会报错。创建wcinput这个文件夹。首先进入hadoop目录。在里面随便输入点单词。进入wcoutput。原创 2022-12-14 20:07:43 · 199 阅读 · 0 评论 -
大数据4.3HDFS的API操作
参数优先级排序:(1)客户端代码中设置的值 >(2)ClassPath下的用户自定义配置文件 >(3)然后是服务器的自定义配置(xxx-site.xml) >(4)服务器的默认配置(xxx-default.xml)1)需要Windows hadoop依赖文件夹,并且放在非中文路径(比如d:\)。2)将hdfs-site.xml拷贝到项目的resources资源目录下。4)创建包名:com.atguigu.hdfs。2)配置HADOOP_HOME环境变量。5) 创建HdfsClient类。原创 2022-12-19 16:58:13 · 227 阅读 · 0 评论 -
大数据1.3模板机准备
.原创 2022-12-14 16:14:05 · 102 阅读 · 0 评论