今天来说一下Hadoop以及hdfs环境配置和搭建。
首先说一下Hadoop大数据的的4V特征:
Volume : (大数据量)90%的数据是过去两年产生
Velocity: (速度快) 数据增长速度快,时效性高
Variety: (多样化) 数据种类和来源多样化
结构化数据,半结构化数据,非结构化数据
Value: (价值密度低)需挖掘获取数据价值
Hadopp的三大核心
Hadoop是一个开源分布式系统架构
分布式文件系统HDFS——解决大数据储存
分布式计算框架MapReduce——解决大数据计算
分布式资源管理系统YARN
接下来演示一下HDFS的环境配置和搭建。
先下载cdh版本的压缩包放在linux虚拟机opt文件解压,这里我用的是2.6.0版本。
cd /opt/
[root@zj opt]# tar -zxf hadoop-2.6.0-cdh5

本文介绍了Hadoop大数据的4V特征并详细阐述了Hadoop的三大核心组件:分布式文件系统HDFS、分布式计算框架MapReduce和分布式资源管理系统YARN。接着,文章详细讲解了在Linux环境下配置和搭建HDFS的步骤,包括下载CDH版本、配置环境变量、修改相关配置文件(如hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml)以及启动和检查Hadoop进程的方法。最后,通过访问特定端口验证配置是否成功。
最低0.47元/天 解锁文章
2216

被折叠的 条评论
为什么被折叠?



