大数据
大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
处理海量数据的核心技术
- 海量数据的存储:分布式
- 海量数据的计算:分布式
分布式的复杂程度比单机版高很多!运用多态及其一起工作 解决问题
存储和计算成熟的框架
- 存储:
- HDFS:分布式文件系统(hadoop的存储框架)
- HBASE:分布式数据库系统(对HDFS的二次封装)
- KAFKA:分布式消息缓存系统
- 计算框架:
- MapReduce:离线计算框架(hadoop的计算框架)
- Spark:离线计算框架(hadoop的计算框架)
- Storm:实时流式计算
- 计算框架:
- Hive:数据仓库工具
- Flume:数据采集
- Sqoop:数据迁移
Hadoop
Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。库本身不是依靠硬件来提供高可用行,二是设计用于检测和处理应用程序层的故障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障
用户可以在不了解分布式的底层细节而开发分布式程序
用户需要充分的利用集群的为例进行高效的运算和存储
Hadoop的核心组件
- 分布式文件系统:HDFS——实现存储在多台服务器上
- 分布式运算编程框架:MapReduce——实现在很多台机器的分布式并行计算
- 分布式资源调度平台:Yarn——调度大量的MapReduce程序,并且合理分配运算资料
本文深入探讨了大数据的概念,即无法用常规软件工具处理的海量、高增长率和多样化的信息资产。重点介绍了大数据处理的核心技术,包括分布式存储和计算,以及Hadoop、HDFS、MapReduce等成熟框架的作用和应用。
2032

被折叠的 条评论
为什么被折叠?



