随着云时代的来临,大数据(Big Data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。一个典型的网络可能包括多个供多用户访问的服务器。另外,对等特性允许一些系统扮演客户机和服务器的双重角色。
一、环境搭建
1、搭建完全分布式之前保证要有至少三台虚拟机来执行操作,网络选用的是桥接模式。
2、将需要的jdk和Hadoop安装包传到根目录下的apps位置,解压
3、配置主机名和虚拟机存在的IP地址
主机名 /etc/sysconfig/network
修改主机名 /etc/hosts
配置IP地址 /etc/sysconfig/network-scripts/ifcfg-eth0 几个虚拟机的IP地址都需