1.分布式:由分布在不同主机上的程序(进程)协同在一起才能构成整个应用。
2.大数据三大特性:1.volumn : 体量大
2.velocity
: 速度快
3.variaty : 样式多
4.value
: 价值密度低
3.hadoop
--------------
可靠地、可伸缩的、分布式计算的开源软件。
是一个框架,允许跨越计算机集群的大数据集分布式化处理,使用简单的编程模型(MapReduce)。
可从单个服务器扩展到几千台主机,每个节点提供了计算和存储功能。
不依赖于硬件处理HA,在应用层面上实现。
hadoop模块
-----------
1.hadoop common
//公共类库,支持其他模块
2.HDFS
//hadoop distributed file sytsem,hadoop分布式文件系统
3.Hadoop YARN
//Yeah another resource ,作业调度和资源管理的框架。
4.Hadoop MapReduce
//基于yarn系统的大数据集并行处理技术。
hadoop的三种安装模式:
1. 独立模式
没有运行的守护程序,所有程序运行在一个JVM中。适合开发期间运行MapReduce程序,源于他的易于测试和调试。
2.伪分布式
守护程序运行在本地主机,模拟一个小规模集群。
3.完全分布式
守护程序运行在多个主机的集群上。
1260

被折叠的 条评论
为什么被折叠?



