Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。
HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
实验环境:
操作系统:redhat6.5 iptables selinux off
hadoop-2.7.3版本,jdk 8版本
Hadoop安装及java环境搭建
解压tar包
[root@server4 ~]# tar xf hadoop-2.7.3.tar.gz -C /usr/local/
[root@server4 ~]# tar xf jdk-8u171-linux-x64.tar.gz -C /usr/local/
声明java
[root@server4 ~]# vim /usr/local/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/local/jdk1.8.0_171
独立操作debug
[root@server4 hadoop-2.7.3]# mkdir input
[root@server4 hadoop-2.7.3]# cp etc/hadoop/*.xml input
[root@server4 hadoop-2.7.3]# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output 'dfs[a-z.]+'
[root@server4 hadoop-2.7.3]# cat output/*
1 dfsadmin
伪分布集群搭建
配置core-site.xml
[root@server4 hadoop-2.7.3]# vim etc/hadoop/core-site.xml

本文介绍了如何在redhat6.5环境下,部署Hadoop 2.7.3的单节点集群。首先,讲述了HDFS的特性,然后详细阐述了从解压Hadoop到配置core-site.xml、hdfs-site.xml,再到启动HDFS并格式化,以及通过脚本启动、检查端口和使用浏览器验证的过程。同时,文章还涵盖了配置java环境、设置免密登陆以及YARN的单节点配置和启动。
最低0.47元/天 解锁文章
1460

被折叠的 条评论
为什么被折叠?



