在大数据架构中,spark+mongo是个不错的组合,前段时间在研究spark连接mongo的操作,今天做个记录,把自己的操作步骤和遇到的问题贴出来,做个记录。
下面是软件的安装流程:
1. mongodb连接spark,在mongo的官网上的例子。Spark,scala的版本要对应匹配,系统环境变量设置
2. 下载spark 2.0.0版本,scala 2.11版本, mongo 3.4版本
3. spark api (Java) 版下载、安装
4. spark-shell 问题,Java 7 设置环境变量,对应spark2.0.0的最低版本
5. scala-2.11.8 安装(Eclipse中的设置的scala的版本对应相同, 不用做scala开发的,这个步骤不用去管)
mongoVUE连接mongo3.4的错误:
1. mongod读取数据库失败,报错的mongo版本<3.2,下载3.4版本安装运行
2. mongoVUE 连接MongoDB3.2不能正常显示collection的问题
引擎的原因,只要降到2.X版本就可以显示,3.x默认是wiredTiger 引擎,2.x默认是mmapv1 引擎
3.下载新的IDE,robo3t-1.1.1-windows-x86_64-c93c6b0,兼容mongo3.4版本
spark查询报错:
1. Exception in thread "main"java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative pathin absolute URI: file:E:/workspace-qingpu/my-spark/spark-warehouse
使用sql查询的时候报错,网上查询后找到了原因,使用spark sql时需要指定数据库的文件地址,但这里并没有使用Spark sql。应该是使用SparkSession,取代了原本的SQLContext与HiveContext。
解决方式:
Sparksession中加一个参数,设置数据库文件的路径,可以任意设置
.config("spark.sql.warehouse.dir","F:/program/MyPrograms/spark-warehouse")
或者:
.config("spark.sql.warehouse.dir","file:///F:/program/MyPrograms/spark-warehouse")