windows idea中用scala操作本地spark，hadoop，及打包成jar 详细步骤

最新推荐文章于 2023-04-18 20:59:59 发布

原创

最新推荐文章于 2023-04-18 20:59:59 发布 · 1.5k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#idea #scala #spark #hadoop

本文详细介绍了在Windows上的IntelliJ IDEA中使用Scala编写代码，操作本地Hadoop和Spark集群的过程。首先，创建项目并编写读取和处理文件的代码。接着，通过Hadoop集群运行程序并查看结果。然后，将项目打包成jar文件，并上传到Linux服务器执行。最后，提供了解决方案以确保在Spark集群上成功运行jar包。

目标：

在idea中用scala编写简单代码，从本地hdfs中（或本地目录）读取文件，通过spark处理后，结果输出到本地dhfs或本地目录。

然后修改代码，将项目打成jar包，上传到linux中，在spark集群上运行。

环境：hadoop2.7.2 +spark2.2.3 +scala 2.11.8 +idea2018

以上环境的具体安装配置和idea的基本操作分别见：

windows上 IntelliJ IDEA安装scala环境： https://blog.youkuaiyun.com/csdn_dengfan/article/details/88363224

windows 安装配置 hadoop2.7.2 spark2.2.3 ：https://blog.youkuaiyun.com/csdn_dengfan/article/details/88375313

1.编写代码

目录结构：

Ts的代码：

val conf = new SparkConf().setAppName("Ts").setMaster("local[1]")
//创建spark执行的入口
val sc = new SparkContext(conf)

//指定以后从哪里读取数据创建RDD
//val lines: R

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

csdn_dengfan

关注关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

scala读取本地hdfs_Spark连接Hadoop读取HDFS问题小结

weixin_39592315的博客

12-19

630

Spark与Hadoop版本我使用0.7.2的Spark版本，且是pre-built过的版本，支持的hadoop版本是hadoop1。在http://spark-project.org/files/上能下载的预编译过的spark版本里，凡是预编译cdh4的压缩包，下载后解压会中断，文件本身有问题。我在google论坛上发帖说明了这个问题：https://groups.google.com/foru...

IDEA中scala实现word_count，sbt打jar包，并发送linux中spark运行(sbt打包详细)

weixin_41512727的博客

04-24

1725

文章目录0-背景1-spark安装2-IDEA开发3-参考 0-背景最近因为业务需求，开始鼓捣下kafka和spark。因为也是第一次做这方面的内容，而且没玩过java和scala。所以这个word count的例子，鼓捣了近两天才出结果。整个流程如下：首先搭建虚拟机，安装ubuntu。然后在linux中安装spark。最后再本地的IDEA中开发scala，并打包jar包，发送到spark系统...

参与评论您还未登录，请先登录后发表或查看评论

Idea 编写 Spark 示例代码并打包成Jar

热门推荐

dai451954706的专栏

01-10

1万+

Linux下单机Spark测试环境使用IDEA编写Spark测试代码配置过程 bin/spark-submit --master spark://macor:7077 --class ge

scala 拷贝本地文件到hdfs

yy的博客

04-18

419

【代码】scala 拷贝本地文件到hdfs。

hadoop —— scala 安装

qq_38120081的博客

04-29

221

【scala】scala安装和配置_win10 - 知乎 https://zhuanlan.zhihu.com/p/33069215

IntelliJ IDEA中编写mapreduce程序上传至远程Hadoop集群运行

wzw

07-10

1771

IntelliJ IDEA中编写mapreduce程序上传至远程Hadoop集群运行本文主要讲怎么将mapreducemapreducemapreduce程序打包成jarjarjar包并上传远程HadoopHadoopHadoop集群运行，所以不讨论如何编写mapreducemapreducemapreduce程序以及如何搭建HadoopHadoopHadoop集群。然后虽然我这里实在macOSmacOSmacOS系统下演示的，其实windowswindowswindows系统一样适用。先来看.

idea，maven打包spark程序（scala）的jar文件

caozhanweicaiyuli的博客

02-06

1721

1.new-->project--->maven 填入GroupId和ArtifactId（相当于给你的项目起名字） 2.在pom.xml中标签中建立标签 3.在http://mvnrepository.com/ 中找到你要添加的包复制到pom.xml中的中，保存 4.删除test 以及main中的java文件夹 5.main中新建scala文件夹 6.右击项目--

IDEA+scala+spark程序开发流程

沈春旭的博客

08-06

4140

1. 新建JAVA工程 2. 设置scala SDK File -> Project Struction -> Libraries -> +; 添加Scala SDK。如果没有配置过系统的scala SDK, 指定系统中安装的scala位置。 3. 导入spark libraries File -> Project Struction -> Librar...

“将online_retail.csv的数据导入到Hive表中，并在spark-sql中查询前10条数据”在idea中用Scala怎么写以及在xshell中具体怎么操作

12-28

### 使用Scala在IDEA中编写代码将CSV文件数据导入Hive表并查询前10条记录 #### 创建项目结构为了实现这一目标，在IntelliJ IDEA中创建一个新的Scala项目。确保安装了必要的插件和支持库，如Sbt和Spark。 #### ...

大数据分析入门-Windosw下安装scala-2.11.11及打包spark项目jar包

wisdom_lp的博客

03-09

640

Windosw下安装scala-2.11.11及打包spark项目jar包,spark on hadoop需提前部署

hadoop spark环境搭建及idea scala maven集成开发spark任务

cauclilin的专栏

08-07

2843

hadoop + spark 环境搭建以及演示scala + spark + maven 项目集成打包向spark 平台submit任务 spark-history-server 配置和查看 spark 历史任务执行记录

Spark在Windows本地读取Hdfs上的文件

weixin_44695980的博客

07-10

2624

Windows本地上，Spark读取Hdfs上文件：需要满足的条件： (1)需要访问hdfs的路径：即可以配置core-site.xml，hdfs-site.xml文件 (2)设置访问hdfs上的用户： System.setProperty(“HADOOP_USER_NAME”,“hdfs”) （3）Spark程序中的Master设置在本地即：local 条件(1)的core-site.xml文...

Spark——IntelliJ IDEA中Spark应用程序连接远程Hadoop集群读写Hive表数据(Scala/Python)

aof

07-03

6140

很多时候，我们在编写好Spark应用程序之后，想要读取Hive表测试一下，但又不想操作 (打jar包——>上传集群——>spark-submit) 这些步骤时，我们就可以在本地直连Hive，直接run你的Spark应用程序中的main函数即可。代码如下(版本为Spark2.0+)： Scala版本 import org.apache.spark.sql.SparkSess...

scala读取本地hdfs_IDEA编写wordcount，读取hdfs文件，运行在Spark集群例子

weixin_28362173的博客

12-29

672

IDEA编写wordcount，读取hdfs文件，运行在Spark集群例子发布时间：2018-10-31 10:10,浏览次数：822, 标签：IDEAwordcounthdfsSpark前期：已安装好hadoop集群和spark集群，hadoop2.6.5，spark2.3.1，jdk1.8. scala2.1.0第一步：在idea编写scala程序，并且要打包(pom文件的build标签中配置...

Scala+Spark+Hadoop+IDEA实现WordCount单词计数，上传并执行任务（简单实例-下）

David的博客

11-15

1321

Scala+Spark+Hadoop+IDEA上传并执行任务本文接续上一篇文章，已经在IDEA中执行Spark任务执行完毕，测试成功。上文链接：Scala +Spark+Hadoop+Zookeeper+IDEA实现WordCount单词计数（简单实例）一、打包 1.1 将setMaster注释掉 package day05 import o...

基于Intellij IDEA的Spark(Scala)开发

Charles.L的博客

09-28

902

一、实验预备环境： 1.JDK1.8.0 2.Windows 7 64位系统二、准备工具： 1.Intellij IDEA 2017.2.5 Ultimate版 2.Scala 2.10 3.spark-1.6.0-bin-hadoop2.6 三、主要步骤： 1.安装spark； 2.安装scala； 3.安装IDEA； 4.编写一个scala程序。四、详细过程： 1...

hadoop idea 本地上传文件到hdfs

ming_514

04-02

3619

最近在学习hadoop编程，其中需要将数据上传到hafs仓库，但是要先复制到centos下再上传上去，比较麻烦，所以直接写了一个上传的程序，这个代码不能实现循环上传多个文件，有相应的函数，你可以试一下，也不是很难。 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; impor...

Intellij IDEA编写Spark应用程序超详细步骤（IDEA+Maven+Scala）

Wingkin的博客

12-16

1万+

本文介绍Intellij IDEA编写Spark应用程序，项目使用maven构建。

idea pom中配置scala spark Hadoop依赖