Spark连接mongo

最新推荐文章于 2024-08-09 07:34:06 发布

原创最新推荐文章于 2024-08-09 07:34:06 发布 · 1.8k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

数据库同时被 2 个专栏收录

14 篇文章

订阅专栏

5 篇文章

订阅专栏

在大数据架构中，spark+mongo是个不错的组合，前段时间在研究spark连接mongo的操作，今天做个记录，把自己的操作步骤和遇到的问题贴出来，做个记录。

下面是软件的安装流程：

1. mongodb连接spark，在mongo的官网上的例子。Spark,scala的版本要对应匹配，系统环境变量设置

2. 下载spark 2.0.0版本，scala 2.11版本, mongo 3.4版本

3. spark api (Java) 版下载、安装

4. spark-shell 问题，Java 7 设置环境变量，对应spark2.0.0的最低版本

5. scala-2.11.8 安装（Eclipse中的设置的scala的版本对应相同, 不用做scala开发的，这个步骤不用去管）

mongoVUE连接mongo3.4的错误：

1. mongod读取数据库失败，报错的mongo版本<3.2，下载3.4版本安装运行

2. mongoVUE 连接MongoDB3.2不能正常显示collection的问题

引擎的原因，只要降到2.X版本就可以显示，3.x默认是wiredTiger 引擎，2.x默认是mmapv1 引擎

3.下载新的IDE，robo3t-1.1.1-windows-x86_64-c93c6b0，兼容mongo3.4版本

spark查询报错：

1. Exception in thread "main"java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative pathin absolute URI: file:E:/workspace-qingpu/my-spark/spark-warehouse

使用sql查询的时候报错，网上查询后找到了原因，使用spark sql时需要指定数据库的文件地址，但这里并没有使用Spark sql。应该是使用SparkSession，取代了原本的SQLContext与HiveContext。

解决方式：

Sparksession中加一个参数，设置数据库文件的路径，可以任意设置

.config("spark.sql.warehouse.dir","F:/program/MyPrograms/spark-warehouse")

或者：

.config("spark.sql.warehouse.dir","file:///F:/program/MyPrograms/spark-warehouse")

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。