spark编程00——IDEA创建spark项目

本文介绍了如何使用Maven创建一个Scala项目,集成Spark 3.0.3和Scala 2.12.11,编写WordCount程序并配置log4j.properties以减少日志输出。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

说明:

spark版本:3.0.3

scala版本:2.12.11

一.创建Maven项目,增加scala插件:

新建一个Maven项目,版本号1.0.0,然后下一步中的项目名和Artifactid中名称一样。

 

 然后在main.java下新建包com.sparkcore:

为项目添加scala-sdk,使之拥有scala环境:

 

下面为项目添加框架支持:在Add Frameworks Support中勾选scala

验证scala是否成功,编写一个scala程序验证:

 

 

 

可看到scala程序成功运行 

二.增加spark依赖关系:

在pom.xml里面添加以下代码:

 <dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.12</artifactId> <!-- scala的版本 -->
            <version>3.0.3</version><!-- spark的版本 -->
        </dependency>
    </dependencies>
    <build>
        <plugins>
            <!-- 该插件用于将Scala代码编译成class文件 -->
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <version>3.2.2</version>
                <executions>
                    <execution>
                        <!-- 声明绑定到maven的compile阶段 -->
                        <goals>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-assembly-plugin</artifactId>
                <version>3.1.0</version>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                </configuration>
                <executions>
                    <execution>
                        <id>make-assembly</id>
                        <phase>package</phase>
                        <goals>
                            <goal>single</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

然后编写spark程序spark01_wordCount,用来统计单词数,需要统计的文件在datas里面,运行结果见图片所示(此处带日志信息)

package com.sparkcore
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object spark01_wordCount {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setMaster("local").setAppName("wordCountApp")
    val sc = new SparkContext(sparkConf)
    val lines = sc.textFile("datas")
    val words = lines.flatMap(_.split(" "))
    val wordGroup1 = words.map(word => (word ,1)).reduceByKey((a,b) => a+b)
    wordGroup1.collect()
    wordGroup1.foreach(println)
    sc.stop()
  }
}

 

三.控制台除去日志信息:

在在项目的resources目录中创建log4j.properties文件,并添加日志配置信息:

log4j.rootCategory=ERROR, console
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n

# Set the default spark-shell log level to ERROR. When running the spark-shell, the
# log level for this class is used to overwrite the root logger's log level, so that
# the user can have different defaults for the shell and regular Spark apps.
log4j.logger.org.apache.spark.repl.Main=ERROR

# Settings to quiet third party logs that are too verbose
log4j.logger.org.spark_project.jetty=ERROR
log4j.logger.org.spark_project.jetty.util.component.AbstractLifeCycle=ERROR
log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=ERROR
log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=ERROR
log4j.logger.org.apache.parquet=ERROR
log4j.logger.parquet=ERROR

# SPARK-9183: Settings to avoid annoying messages when looking up nonexistent UDFs in SparkSQL with Hive support
log4j.logger.org.apache.hadoop.hive.metastore.RetryingHMSHandler=FATAL
log4j.logger.org.apache.hadoop.hive.ql.exec.FunctionRegistry=ERROR

除去日志信息后的效果(只保留程序运行结果):

 

### 使用 IntelliJ IDEA 搭建和运行 Spark 开发环境 #### 创建 Maven 工程 为了在本地使用 IntelliJ IDEA 构建 Spark开发环境,首先需要创建一个新的 Maven 项目。这一步骤已经在Intellij IDEA中通过安装 scala 插件得以准备就绪[^1]。 #### 配置 JDK 和 Scala 版本 确保选择了合适的 JDK 版本(推荐 jdk8.0),因为过高版本可能会导致 pom.xml 文件配置出现问题[^2]。对于 Scala 的版本选择,请依据所使用的 Spark 版本来决定;例如,如果采用的是 Spark-2.3.2,则应搭配 Scala-2.11.x 版本[^4]。 #### 添加 Spark 依赖项到 `pom.xml` 编辑项目的`pom.xml`文件以加入必要的 Spark 库依赖关系。对于仅需在 Windows 上进行 Spark 编程练习的情况而言,并不需要实际部署 Hadoop 或者 Spark 环境,而是能够借助于 Maven 来管理这些库的引入。具体来说就是向该 XML 文档中的 `<dependencies>` 节点下增加如下所示的内容: ```xml <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.3.2</version> </dependency> ``` 上述代码片段展示了如何指定 spark-core 这个核心组件作为依赖对象及其对应的 Scala 版本号与 Spark 发布版次。 #### 编写并测试简单的 Spark 程序 一旦完成了以上准备工作之后就可以着手编写第一个 Spark 应用了。下面给出了一段用于验证整个设置过程是否成功的简单例子——计算给定列表里各个元素出现次数的小型应用程序: ```scala import org.apache.spark.{SparkConf, SparkContext} object WordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("word count").setMaster("local[*]") val sc = new SparkContext(conf) val words = List("hello", "world", "hello") val wordCounts = sc.parallelize(words).countByValue() println(wordCounts) sc.stop() } } ``` 这段代码实现了基本的功能演示:初始化 Spark 上下文、加载数据集、执行操作以及关闭资源连接。值得注意的是,在调用 setMaster 方法时指定了参数 `"local[*]"` 表明此应用将在单机模式下的所有可用 CPU 核心上并发执行。 #### 执行程序 最后一步就是在 IDE 中直接点击按钮启动刚才编写的 Spark 应用程序了。由于之前已经正确设置了所有的外部库路径和其他必要条件,所以现在应该可以顺利地看到预期的结果输出至控制台窗口中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值