MongoDB与Spark整合的环境搭建

最新推荐文章于 2025-02-28 20:49:02 发布

ConradJam

最新推荐文章于 2025-02-28 20:49:02 发布

阅读量9.3k

点赞数 2

本文为博主原创文章，未经博主允许不得转载。转载请标明原博客地址以及文章来源

本文链接：https://blog.youkuaiyun.com/qq_30438573/article/details/82658193

版权

本文详细介绍了如何搭建Spark与MongoDB的整合环境，从Spark和Scala的安装到MongoDB Spark Connector的使用，再到执行Java版简单案例。Spark凭借其内存计算优势、高容错性和通用性，成为大数据处理的重要工具。MongoDB作为NoSQL数据库，与Spark结合可实现高效的数据处理和分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark介绍

Spark是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目，8个月后成为Apache顶级项目，速度之快足见过人之处，Spark以其先进的设计理念，迅速成为社区的热门项目，围绕着Spark推出了Spark SQL、Spark Streaming、MLLib和GraphX等组件，也就是BDAS（伯克利数据分析栈），这些组件逐渐形成大数据处理一站式解决平台。从各方面报道来看Spark抱负并非池鱼，而是希望替代Hadoop在大数据中的地位，成为大数据处理的主流标准 Spark是在借鉴了MapReduce之上发展而来的，继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷，具体如下：

首先，Spark把中间数据放到内存中，迭代运算效率高。MapReduce中计算结果需要落地，保存到磁盘上，这样势必会影响整体速度，而Spark支持DAG图的分布式并行计算的编程框架，减少了迭代过程中数据的落地，提高了处理效率。

其次，Spark容错性高。Spark引进了弹性分布式数据集RDD (Resilient Distributed Dataset) 的抽象，它是分布在一组节点中的只读对象集合，这些集合是弹性的，如果数据集一部分丢失，则可以根据“血统”（即充许基于数据衍生过程）对它们进行重建。另外在RDD计算时可以通过CheckPoint来实现容错，而CheckPoint有两种方式：CheckPoint Data，和Logging The Updates，用户可以控制采用哪种方式来实现容错。

最后，Spark更加通用。不像Hadoop只提供了Map和Reduce两种操作，Spark提供的数据集操作类型有很多种，大致分为：Transformations和Actions两大类。Transformations包括Map、Filter、FlatMap、Sample、GroupByKey、ReduceByKey、Union、Join、Cogroup、MapValues、Sort和PartionBy等多种操作类型，同时还提供Count, Actions包括Collect、Reduce、Lookup和Save等操作。另外各个处理节点之间的通信模型不再像Hadoop只有Shuffle一种模式，用户可以命名、物化，控制中间结果的存储、分区等。

Spark和Scala安装

获取Spark和Scala的tgz安装包

注意：Spark在官网选择安装包时候需要根据你hadoop的实际版本做出选择，这里默认选择hadoop版本为2.7或者以上的，截止这篇文章时候，hadoop版本为3.1.1

wget http://mirrors.hust.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz 
wget https://downloads.lightbend.com/scala/2.12.6/scala-2.12.6.tgz

解压压缩包，配置生产环境变量（这里以Centos7作为演示）编辑etc/profile环境变量

export JAVA_HOME=/usr/java/jdk1.8.0_181-amd64
export JAVA_BIN=/usr/java/jdk1.8.0_181-amd64/bin
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export JAVA_HOME JAVA_BIN PATH CLASSPATH
export SCALA_HOME=/usr/etc/scala-2.12.6
export PATH=$PATH:$SCALA_HOME/bin:$PATH
export SPARK_HOME=/usr/etc/spark-2.

最低0.47元/天解锁文章