大数据密训第九课：IDEA下开发Spark程序

最新推荐文章于 2025-05-07 14:30:23 发布

原创最新推荐文章于 2025-05-07 14:30:23 发布 · 1.1k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#spark #idea

spark 专栏收录该内容

20 篇文章

订阅专栏

本课程详细讲解如何在IDEA中开发Spark程序，包括Spark核心编程、SQL、Streaming、GraphX、MLlib等内容，并通过实战案例深入剖析Spark。课程涵盖了Scala编程、Spark源码剖析、性能调优及企业级案例。在IDEA中配置Spark项目涉及Java 8、Scala 2.10.4的安装，以及Spark Jar依赖的添加。注意，由于内存、网络和安全性的限制，不推荐直接在IDE中发布Spark程序到集群，通常需要打包后提交。

第一阶段（1-3月）：会从浅入深，基于大量案例实战，深度剖析和讲解Spark，并且会包含完全从企业真实复杂业务需求中抽取出的案例实战。课程会涵盖Scala编程详解、Spark核心编程、Spark SQL和Spark Streaming、Spark GraphX、SparkR、Machine Learning、Spark内核以及源码剖析、性能调优、企业级案例实战等部分

第二阶段（Spark超大规模大数据案例实战）：使用了Spark技术生态栈中的Spark Core、Spark SQL、Spark Streaming、SparkR、Machine Learning，进行离线计算和实时计算业务模块的开发、数据的关联性分析、用户行为模式和特征的训练与应用、用户网络的社区发现、用户影响力、能量传播、标签传播、标签推理、人群划分、年龄段预测、商品交易时序跳转。