第一阶段(1-3月):会从浅入深,基于大量案例实战,深度剖析和讲解Spark,并且会包含完全从企业真实复杂业务需求中抽取出的案例实战。课程会涵盖Scala编程详解、Spark核心编程、Spark SQL和Spark Streaming、Spark GraphX、SparkR、Machine Learning、Spark内核以及源码剖析、性能调优、企业级案例实战等部分
第二阶段(Spark超大规模大数据案例实战):使用了Spark技术生态栈中的Spark Core、Spark SQL、Spark Streaming、SparkR、Machine Learning,进行离线计算和实时计算业务模块的开发、数据的关联性分析、用户行为模式和特征的训练与应用、用户网络的社区发现、用户影响力、能量传播、标签传播、标签推理、人群划分、年龄段预测、商品交易时序跳转。
本期内容:
1 使用IDEA开发Spark分析
2 使用IDEA开发Spark实战
3,使用IDEA开发Spark的Local和Cluster
(1)在安装包 Windows下最新的ideaIC-15.0.2.exe
(2)本地Java 8 和Scala 2.10.4软件套件的安装
(3)为IDEA安装Scala 这个过程是IDEA自动化的插件管理,所以点击后会自动下载
为IDEA安装Scala 这个过程是IDEA自动化的插件管理,所以点击后会自动下载
4,指定JDK 1.8.x和Scala 2.10.4
点击finish后开始建立indexing
(5)File-> Project Stucture来设置工程的Libraries 核心是添加Spark的Jar
(6)添加Spark的Jar依赖 spark-1.6.0-bin-hadoop2.6.tgz spark-assembly-1.6.0-hadoop2.6.0.jar
加入依赖后,创建包和Scala类开发第一个Spark程序WordCount
注:为什么不能够在IDE集成开发环境中直接发布Spark程序到Spark集群中
第一点:内存和Cores的限制,默认情况下Spark程序的Driver会在提交Spark程序的机器上,所以如果在IDE中提交程序的话,那IDE机器就必须非常强大;
第二点:Driver要指挥Workers的运行并频繁的发生通信,如果开发环境IDE和Spark集群不在同样一个网络下,就会出现任务丢失,运行缓慢等多种不必要的问题;
第三点:安全性太差。
程序打包
打包的过程:File-Project Structure-Aartifacts-Jar-FromModuleWithDependencies-MainClass
DT大数据梦工厂
新浪微博:www.weibo.com/ilovepains/
微信公众号:DT_Spark
博客:http://.blog.sina.com.cn/ilovepains
TEL:18610086859
Email:18610086859@vip.126.com
监控台与打印的信息