Spark连接mongo

在大数据架构中,spark+mongo是个不错的组合,前段时间在研究spark连接mongo的操作,今天做个记录,把自己的操作步骤和遇到的问题贴出来,做个记录。

 

下面是软件的安装流程:

1. mongodb连接spark,在mongo的官网上的例子。Spark,scala的版本要对应匹配,系统环境变量设置

2. 下载spark 2.0.0版本,scala 2.11版本, mongo 3.4版本

3. spark api (Java) 版下载、安装

4. spark-shell 问题,Java 7 设置环境变量,对应spark2.0.0的最低版本

5. scala-2.11.8 安装(Eclipse中的设置的scala的版本对应相同, 不用做scala开发的,这个步骤不用去管)

 

mongoVUE连接mongo3.4的错误:

1. mongod读取数据库失败,报错的mongo版本<3.2,下载3.4版本安装运行

2. mongoVUE 连接MongoDB3.2不能正常显示collection的问题

引擎的原因,只要降到2.X版本就可以显示,3.x默认是wiredTiger 引擎,2.x默认是mmapv1 引擎

3.下载新的IDE,robo3t-1.1.1-windows-x86_64-c93c6b0,兼容mongo3.4版本

 

spark查询报错:

1. Exception in thread "main"java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative pathin absolute URI: file:E:/workspace-qingpu/my-spark/spark-warehouse

使用sql查询的时候报错,网上查询后找到了原因,使用spark sql时需要指定数据库的文件地址,但这里并没有使用Spark sql。应该是使用SparkSession,取代了原本的SQLContext与HiveContext。

 

解决方式:

Sparksession中加一个参数,设置数据库文件的路径,可以任意设置

.config("spark.sql.warehouse.dir","F:/program/MyPrograms/spark-warehouse") 

或者:

.config("spark.sql.warehouse.dir","file:///F:/program/MyPrograms/spark-warehouse")  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值