Azure中Databricks上运行spark streaming job

最新推荐文章于 2024-09-09 08:41:05 发布

原创

最新推荐文章于 2024-09-09 08:41:05 发布 · 1k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#azure #databricks #spark #streaming #maven

我们需要先用Maven创建一个scala的工程，具体步骤可以参考：https://docs.scala-lang.org/tutorials/scala-with-maven.html

然后用IntelliJ IDEA打开这个Maven Project。其中在根目录下游一个pom.xml文件，针对我们项目的需求需要加上相应的dependency包。比较我们要建一个spark streaming的project，所以我们必须要加spark相应的包。其中需要注意的是scope的功能。根据我的实验，如果这个参数值为provided后，最后project package完的with dependency的jar里面就不会包含有所依赖的jar。

    <dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>${spark.version}</version>
            <scope>provided</scope>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.11</artifactId>
            <version>${spark.version}</version>