Spark基础链接汇总

本文深入探讨了Spark大数据处理框架的核心概念与实践技巧,包括RDD理解与操作、Spark SQL、Spark Streaming实时处理、架构组件解析、性能调优策略、共享变量运用及与数据库的集成方法。通过详实的教程与案例,帮助读者掌握Spark的关键特性和应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 厦门大学子雨大数据spark入门教程(scala版)
2. spark-submit 提交模式简介
3. Spark Streaming基础
4. Spark架构中的Driver和Worker
5. SparkStreaming对接Hbase和MySQL数据库
6. 知乎: spark中的RDD究竟怎么理解
7. spark使用parallelize方法创建RDD
8. spark任务的三种分布式运行模式(注意对粗细粒度的支持)
9. spark第三方包(包含各种外部数据源的支持)
10. SparkStreaming中窗口函数的使用
11. sparkSQL里的windows函数
12. RDD的五大特性(1)
  RDD的五大特性(2)
13. Spark调优(数据序列化和内存调优)
14. Spark中广播变量
15. Spark RDD持久化、广播变量和累加器
16. Spark共享变量(广播变量、累加器)
17.RDD常用API
  1. RDD基本转换
  2. 键-值RDD转换
  3. Action操作篇
18. Spark笔记
19. Spark中RDD操作
20. Spark RDD、DataFrame和DataSet的区别
21. spark sql createGlobalTempView和createOrReplaceTempView
22. Spark中job、stage、task的划分
23. Spark Streaming之foreachRDD

随笔:
  1. sparkstreaming本地模式运行时,master URL 设置为local[2]及以上
  When running a Spark Streaming program locally, do not use “local” or “local[1]” as the master URL. Either ofthese means that only one thread will be used for running tasks locally. If you are using a input DStream based on a receiver (e.g. sockets, Kafka, Flume, etc.), then the single thread will be used to run the receiver,leaving no thread for processing the received data.
  另:spark中task是基于线程运行的
  
  2. spark 应用入口SparkContext(SparkConf)
    spark streaming应用入口StreamingContext
    spark sql应用入口SparkSession

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值