大数据密训第九课:IDEA下开发Spark程序

本课程详细讲解如何在IDEA中开发Spark程序,包括Spark核心编程、SQL、Streaming、GraphX、MLlib等内容,并通过实战案例深入剖析Spark。课程涵盖了Scala编程、Spark源码剖析、性能调优及企业级案例。在IDEA中配置Spark项目涉及Java 8、Scala 2.10.4的安装,以及Spark Jar依赖的添加。注意,由于内存、网络和安全性的限制,不推荐直接在IDE中发布Spark程序到集群,通常需要打包后提交。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一阶段(1-3月):会从浅入深,基于大量案例实战,深度剖析和讲解Spark,并且会包含完全从企业真实复杂业务需求中抽取出的案例实战。课程会涵盖Scala编程详解、Spark核心编程、Spark SQLSpark StreamingSpark GraphXSparkRMachine LearningSpark内核以及源码剖析、性能调优、企业级案例实战等部分

第二阶段(Spark超大规模大数据案例实战):使用了Spark技术生态栈中的Spark CoreSpark SQLSpark StreamingSparkRMachine Learning,进行离线计算和实时计算业务模块的开发、数据的关联性分析、用户行为模式和特征的训练与应用、用户网络的社区发现、用户影响力、能量传播、标签传播、标签推理、人群划分、年龄段预测、商品交易时序跳转。

本期内容:

使用IDEA开发Spark分析

使用IDEA开发Spark实战

3,使用IDEA开发SparkLocalCluster

(1)在安装包 Windows下最新的ideaIC-15.0.2.exe

(2)本地Java 8 和Scala 2.10.4软件套件的安装

(3)为IDEA安装Scala 这个过程是IDEA自动化的插件管理,所以点击后会自动下载


为IDEA安装Scala 这个过程是IDEA自动化的插件管理,所以点击后会自动下载


4,指定JDK 1.8.x和Scala 2.10.4

点击finish后开始建立indexing


(5)File-> Project Stucture来设置工程的Libraries 核心是添加Spark的Jar


(6)添加Spark的Jar依赖 spark-1.6.0-bin-hadoop2.6.tgz spark-assembly-1.6.0-hadoop2.6.0.jar


加入依赖后,创建包和Scala类开发第一个Spark程序WordCount


注:为什么不能够在IDE集成开发环境中直接发布Spark程序到Spark集群中

第一点:内存和Cores的限制,默认情况下Spark程序的Driver会在提交Spark程序的机器上,所以如果在IDE中提交程序的话,那IDE机器就必须非常强大;

第二点:Driver要指挥Workers的运行并频繁的发生通信,如果开发环境IDE和Spark集群不在同样一个网络下,就会出现任务丢失,运行缓慢等多种不必要的问题;

第三点:安全性太差。

程序打包

打包的过程:File-Project Structure-Aartifacts-Jar-FromModuleWithDependencies-MainClass


DT大数据梦工厂

新浪微博:www.weibo.com/ilovepains/

微信公众号:DT_Spark

博客:http://.blog.sina.com.cn/ilovepains

TEL:18610086859

Email:18610086859@vip.126.com

 

监控台与打印的信息





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值