linux
文章平均质量分 94
lyeennnn
美女新人小白
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【无标题】
Apache Spark 是一种开源的集群计算框架,用于快速处理大数据。它是由加州大学伯克利分校AMPLab 开发的,并于 2013 年开源。Spark 提供了一种高效、可扩展和易于使用的编程模型,支持多种编程语言,如 Scala、Java、Python 和 R。Spark 的核心是 Resilient Distributed Dataset(RDD),它是一个可以并行处理的分布式内存数据结构。RDD 可以通过多个操作进行转换和操作,从而实现对数据的高效处理和分析。这些操作包括过滤、映射、聚合、排序等。原创 2023-11-15 12:27:59 · 112 阅读 · 0 评论 -
Spark大数据快速运算实训三:虚拟机进行hadoop安装及配置+工作原理流程解释
Hadoop是一个开源框架,用于分布式存储和处理大型数据集。它基于Google的MapReduce算法和Google文件系统(GFS),旨在提供一种可扩展的、分布式的处理大数据集的平台。Hadoop包括两个核心组件:Hadoop分布式文件系统(HDFS)和Hadoop MapReduce。HDFS是一个可靠的分布式文件系统,用于存储大数据集,而Hadoop MapReduce则是一种用于处理HDFS中存储的数据的编程模型和计算框架。Hadoop被广泛用于大数据处理、数据仓库、日志分析、搜索和机器学习等领域。原创 2023-11-09 15:28:01 · 583 阅读 · 1 评论
分享