- 博客(12)
- 资源 (1)
- 收藏
- 关注
原创 Spark简介
Spark是一个集群计算框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。Spark最初是为了解决Hadoop MapReduce的一些限制而创建的。因此,Spark在设计上借鉴了Hadoop的一些思想,但在执行模型、性能和灵活性上进行了改进。同时,Spark可以共享Hadoop的分布式文件系统(HDFS)和兼容Hadoop生态系统(如Hive、HBase等)。
2024-01-19 16:55:24
1410
2
原创 Hadoop简介
随着互联网的发展,越来越多的组织面临大规模数据集的挑战。传统的数据处理方法和关系型数据库在处理这种规模的数据时变得显然不够有效。Hadoop应运而生,旨在提供一种可扩展的解决方案,能够处理超大规模的数据。Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由Apache的Lucence项目创始人道格·卡廷(Doug Cutting)创建的,Lucence是一个应用广泛的文本搜索系统库。Hadoop起源于开源的网络搜索引擎Nutch,Nutch本身也是Lucence项目的一部分。
2024-01-19 11:15:18
1230
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人