idea基于maven 和scala创建spark项目

本文详细介绍如何在IntelliJ IDEA上通过Maven创建基于Scala语言的Spark项目,包括所需环境配置及具体步骤,并验证Spark环境是否正确配置。

一、需要安装的环境

① JDK。本人安装的是1.8版本,安装过程略,网上可搜索anzhuang教程。

② MAVEN。本人安装的是3.3.3。

③ IDEA。版本是2016.3以后的版本。


二、创建基于scala语言的spark项目


①创建新项目(FILE -> NEW -> PROJECT)


②左边栏选择Maven,点击红圈内容,Next


③输入项目名称等信息


④选择本地安装的maven目录和maven配置文件的路径,NEXT


⑤设置项目路径,finish


⑥配置项目Sources 和Resource ,next


⑦设置scala SDK。博主使用的是scala2.11.8版本,同时把内置的scala版本删掉。




⑧点击右下角的import chances,然后就可以在项目中新建scala class 和object了。


⑨配置spark环境。打开项目下的pom.xml文件,找到位置<dependencies></dependencies>之间,插入如下依赖,import changes。注意博主此处使用的是2.0.2版本的spark,各位帅锅美女需要根据自己需要的版本,进行添加。需要查找对应的maven依赖,可到http://mvnrepository.com/artifact/org.apache.spark 此处进行搜索 。


⑩脚本测试spark环境。测试成功


基本项目建设完成。





### 在IntelliJ IDEA中为Spark项目正确配置Maven的pom.xml依赖 在IntelliJ IDEA中配置Spark项目Maven依赖时,需要确保`pom.xml`文件中包含正确的依赖项,并且IDEA能够正确解析这些依赖。以下是详细的配置说明: #### 1. 添加Spark核心依赖 在`pom.xml`文件中添加以下依赖项以支持Spark的核心功能[^1]: ```xml <dependencies> <!-- Spark Core --> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.3.0</version> </dependency> <!-- Spark SQL --> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.12</artifactId> <version>3.3.0</version> </dependency> </dependencies> ``` 上述代码中,`spark-core`用于处理基本的Spark任务,而`spark-sql`则提供了SQLDataFrame支持。版本号应根据实际需求选择。 #### 2. 配置Hadoop依赖(如果需要) 如果项目涉及与HDFS交互,则需要添加Hadoop依赖: ```xml <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>3.3.1</version> </dependency> ``` 此依赖项允许项目访问Hadoop分布式文件系统[^1]。 #### 3. 解决Maven项目创建速度慢的问题 如果在创建Maven项目时遇到速度慢的问题,可以参考以下解决方法[^2]: - **方法一**:通过配置Maven的VM参数禁用`archetype-catalog.xml`的下载。具体步骤如下: - 打开IDEA的设置窗口:`File -> Settings -> Build, Execution, Deployment -> Build Tools -> Maven -> Runner`。 - 在`VM options for importer`中添加以下内容: ```plaintext -Dmaven.archetype.catalog=internal ``` - **方法二**:手动下载`archetype-catalog.xml`文件并放置在本地Maven仓库中,避免重复下载。 #### 4. 配置编译器字节码版本 如果在创建或运行项目时遇到编译错误(如`java.lang.reflect.InvocationTargetException`),请检查IDEA的Java编译器设置[^3]: - 打开`Settings -> Build, Execution, Deployment -> Compiler -> Java Compiler`。 - 将`Target bytecode version`设置为与本地Java版本一致(例如`1.8`)。 #### 5. 启用Arrow优化(可选) 为了提高Spark SQL的性能,可以启用Apache Arrow优化[^4]。在`pom.xml`中添加以下配置: ```xml <properties> <spark.sql.execution.arrow.enabled>true</spark.sql.execution.arrow.enabled> </properties> ``` #### 示例完整的`pom.xml`文件 以下是一个完整的`pom.xml`示例: ```xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.example</groupId> <artifactId>spark-project</artifactId> <version>1.0-SNAPSHOT</version> <properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target> <spark.sql.execution.arrow.enabled>true</spark.sql.execution.arrow.enabled> </properties> <dependencies> <!-- Spark Core --> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.3.0</version> </dependency> <!-- Spark SQL --> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.12</artifactId> <version>3.3.0</version> </dependency> <!-- Hadoop Client --> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>3.3.1</version> </dependency> </dependencies> </project> ``` ### 注意事项 - 确保Maven的本地仓库路径已正确配置。 - 如果使用Scala开发,请在`pom.xml`中添加Scala相关依赖,并设置Scala版本。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值