Hadoop基础知识

1、4个V

  • [Volume]–大数据量:90%数据是过去2年产生
  • [Velocity]–速度快:数据增长速度快,时效性高
  • [Variety]—多样性:数据种类和来源多样化
  • [Value]-----价值密度低:需挖掘获取数据价值

2、3个核心
Hadoop是一个开源分布式系统架构
 1、分布式文件系统HDFS——解决大数据存储(Hadoop Distributed File System)
 2、分布式计算框架MapReduce——解决大数据计算
 3、分布式资源管理系统YARN(Yet Anoter Resource Negotiator)
 
Hadoop是处理海量数据的架构首选

可以非常快得完成大数据计算任务

已发展成为一个Hadoop生态圈

3、Hadoop基础命令

hdfs dfs -mkdir /mydemo          //新建文件夹,名为mydemo
hdfs dfs -ls /              		  //查看
hdfs dfs -put /opt/1.txt /mydemo      //将虚拟机/opt/目录下的1.txt放到hadoop文件夹中
hdfs dfs -cat /mydemo/1.txt		    //查看	
hdfs dfs -text /mydemo/1.txt        //查看
hdfs dfs -rm /mydemo/1.txt			  //删除
hdfs dfs -rm -R /mydemo 			  //递归删除
hdfs dfs -mkdir -p /mydemo/tmh	      //递归创建
hdfs dfs -put /opt/1.txt /mydemo/tmh  
hdfs dfs -get /mydemo/tmh/1.txt /opt/soft/ //将hadoop文件夹中的文件拿出来到/opt/soft/中

4、HDFS角色
Client:客户端
Namenode(NN):元数据节点
  ☆管理文件系统的Namespace/元数据
  ☆一个HDFS集群只有一个Active的NN
DataNode(DN):数据节点
  ☆数据存储节点,保存和检索Block
  ☆一个集群可以有多个数据节点
Secondary NameNode(SNN):从元数据节点
  ☆合并NameNode的edit logs到fsimage文件中
  ☆辅助NN将内存中元数据信息持久化
 
Hadoop在虚拟机上的环境搭建:
https://blog.youkuaiyun.com/tmh1995/article/details/106475380

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值