Spark学习体系

最新推荐文章于 2025-10-24 14:48:06 发布

原创最新推荐文章于 2025-10-24 14:48:06 发布 · 2.9k 阅读

0 ·

CC 4.0 BY-SA版权

Cloud 同时被 3 个专栏收录

51 篇文章

订阅专栏

Spark

8 篇文章

订阅专栏

Scala

8 篇文章

订阅专栏

底理解Spark，可以分为以下几个层次。

1 Spark基础篇
	1.1 Spark生态和安装部署
		在安装过程中，理解其基本操作步骤。
		安装部署
		  Spark安装简介
		  Spark的源码编译
		  Spark Standalone安装
		  Spark Standalone HA安装
		  Spark应用程序部署工具spark-submit
		Spark生态
		  Spark（内存计算框架）
		  SparkSteaming（流式计算框架）
		  Spark SQL（ad-hoc）
		  Mllib（Machine Learning）
		  GraphX（bagel将被取代）
	1.2 Spark运行架构和解析
		Spark的运行架构
		  基本术语
		  运行架构
		  Spark on Standalone运行过程
		  Spark on YARN 运行过程
		Spark运行实例解析
		  Spark on Standalone实例解析
		  Spark on YARN实例解析


    1.3 Spark的监控和调优
		Spark的监控
		  Spark UI监控,默认端口是4040
		  Ganglia 监控,大数据监控开源框架
		Spark调优
		  基础性调优方式
	1.4 Spark编程模型	  
	    Spark的编程模型
		  Spark编程模型解析
		  RDD的特点、操作、依赖关系
		  Spark应用程序的配置
	    Spark编程实例解析
		  日志的处理
	1.5 Spark Streaming原理	  
		  Spark流式处理架构
		  DStream的特点
		  Dstream的操作和RDD的区别
		  Spark Streaming的优化
		Spark Streaming实例分析
		  常用的实例程序：
				  文本实例
				  Window操作
				  网络数据处理
	1.6 Spark SQL原理
		  Spark SQL的Catalyst优化器
		  Spark SQL内核
		  Spark SQL和Hive	
        Spark SQL的实例
		  Spark SQL的实例操作demo
		  Spark SQL的编程，需要网络上查找一些资源		  


2 中级篇
	2.1 Spark的多语言编程	
        Spark的scala编程
        Spark的Python编程（Java一定熟悉啦，不用多说了）
           对应的应用程序实例，理解基本的处理模式。		


	2.2 Spark 机器学习入门
		机器学习的原理
		Mllib简介，实例分析
    2.3 GraphX 入门
		图论基础
		GraphX的简介
		GraphX例程分析
    2.4 理解Spark与其它项目的区别和联系
	    Spark和MapReduce、Tez
		Spark的衍生项目BlinkDB，RSpark
    2.5 关注Spark的作者的blog和权威网站的文档


3 高级篇
   3.1 深入理解Spark的架构和处理模式
   
   3.2 Spark源码剖析与研读
        Spark Core核心模块，
		掌握下面核心功能的处理逻辑：
			SparkContext 
			Executor
			Deploy
			RDD和Storage
			Scheduler和Task
		Spark Examples
	3.3 思考如何优化和提升，掌握其优缺点，
	    深入思考能不能衍生出有意思的课题。

以上就是学习Spark的有关内容和步骤，具体如何学习，仁者见仁智者见智。