大数据

最新推荐文章于 2024-09-29 00:10:05 发布

原创最新推荐文章于 2024-09-29 00:10:05 发布 · 233 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#大数据 #Hadoop

大数据专栏收录该内容

62 篇文章

订阅专栏

本文深入探讨了大数据的概念，即无法用常规软件工具处理的海量、高增长率和多样化的信息资产。重点介绍了大数据处理的核心技术，包括分布式存储和计算，以及Hadoop、HDFS、MapReduce等成熟框架的作用和应用。

大数据

大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

处理海量数据的核心技术

海量数据的存储：分布式
海量数据的计算：分布式

分布式的复杂程度比单机版高很多！运用多态及其一起工作解决问题

存储和计算成熟的框架

存储：
1. HDFS：分布式文件系统（hadoop的存储框架）
2. HBASE：分布式数据库系统（对HDFS的二次封装）
3. KAFKA：分布式消息缓存系统
计算框架：
1. MapReduce：离线计算框架（hadoop的计算框架）
2. Spark：离线计算框架（hadoop的计算框架）
3. Storm：实时流式计算
计算框架：
1. Hive：数据仓库工具
2. Flume：数据采集
3. Sqoop：数据迁移

Hadoop

Apache Hadoop软件库是一个框架，允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机，每台计算机都提供本地计算和存储。库本身不是依靠硬件来提供高可用行，二是设计用于检测和处理应用程序层的故障，从而在计算机集群之上提供高可用性服务，每个计算机都可能容易出现故障

用户可以在不了解分布式的底层细节而开发分布式程序

用户需要充分的利用集群的为例进行高效的运算和存储

Hadoop的核心组件

分布式文件系统：HDFS——实现存储在多台服务器上
分布式运算编程框架：MapReduce——实现在很多台机器的分布式并行计算
分布式资源调度平台：Yarn——调度大量的MapReduce程序，并且合理分配运算资料

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。