1、4个V
- [Volume]–大数据量:90%数据是过去2年产生
- [Velocity]–速度快:数据增长速度快,时效性高
- [Variety]—多样性:数据种类和来源多样化
- [Value]-----价值密度低:需挖掘获取数据价值
2、3个核心
Hadoop是一个开源分布式系统架构
1、分布式文件系统HDFS——解决大数据存储(Hadoop Distributed File System)
2、分布式计算框架MapReduce——解决大数据计算
3、分布式资源管理系统YARN(Yet Anoter Resource Negotiator)
Hadoop是处理海量数据的架构首选
可以非常快得完成大数据计算任务
已发展成为一个Hadoop生态圈
3、Hadoop基础命令
hdfs dfs -mkdir /mydemo //新建文件夹,名为mydemo
hdfs dfs -ls / //查看
hdfs dfs -put /opt/1.txt /mydemo //将虚拟机/opt/目录下的1.txt放到hadoop文件夹中
hdfs dfs -cat /mydemo/1.txt //查看
hdfs dfs -text /mydemo/1.txt //查看
hdfs dfs -rm /mydemo/1.txt //删除
hdfs dfs -rm -R /mydemo //递归删除
hdfs dfs -mkdir -p /mydemo/tmh //递归创建
hdfs dfs -put /opt/1.txt /mydemo/tmh
hdfs dfs -get /mydemo/tmh/1.txt /opt/soft/ //将hadoop文件夹中的文件拿出来到/opt/soft/中
4、HDFS角色
Client:客户端
Namenode(NN):元数据节点
☆管理文件系统的Namespace/元数据
☆一个HDFS集群只有一个Active的NN
DataNode(DN):数据节点
☆数据存储节点,保存和检索Block
☆一个集群可以有多个数据节点
Secondary NameNode(SNN):从元数据节点
☆合并NameNode的edit logs到fsimage文件中
☆辅助NN将内存中元数据信息持久化
Hadoop在虚拟机上的环境搭建:
https://blog.youkuaiyun.com/tmh1995/article/details/106475380