
Spark
Apache Spark 是一个开源框架,适用于跨集群计算机并行处理大数据任务。它是在全球广泛应用的分布式处理框架之一。
docsz
擅长大数据平台架构,数仓设计,数据湖落地;构建企业级数据平台
展开
-
Spark提交任务
SPARK提交任务脚本原创 2025-02-20 18:03:13 · 310 阅读 · 0 评论 -
Flink和Spark的区别
flink和spark的区别原创 2024-09-25 10:36:14 · 3997 阅读 · 0 评论 -
Hive3.1.2编译
1、修改pom文件 <spark.version>3.1.1</spark.version> <scala.binary.version>2.12</scala.binary.version> <scala.version>2.12.10</scala.version> <hadoop.version>3.2.2</hadoop.version> <guava.version&g原创 2021-05-24 17:37:45 · 1777 阅读 · 0 评论 -
SparkStream
SparkStreaming的核心思路:把无边界的数据流抽象成DStream,在时间方向上,按照某个指定的时间间隔,把DStream切割成一个离散的RDD的序列,然后每一个都交给spark执行引擎进行处理。SparkStreaming的编程套路:1、获取编程入口:StreamingContext2、通过StreamingContext构建第一个DStream3、对于DStream进行各种...原创 2020-04-08 12:55:35 · 499 阅读 · 0 评论 -
Spark内存模型
1:MemoryManagerorg.apache.spark.memory.MemoryManagerspark为存储内存和执行内存的管理提供了统一的接口–MemoryManager,同一个Executor内的任务都调用这个接口的方法来申请或释放内存。—>进入后Ctr + H 查看实现类:StaticMemoryManager:执行内存和存储内存相互之间不能占用UnifiedM...原创 2020-04-02 22:59:10 · 213 阅读 · 0 评论 -
Spark源码之Executor线程池
1:Executor线程池 // Start worker thread pool private val threadPool = { val threadFactory = new ThreadFactoryBuilder() .setDaemon(true) .setNameFormat("Executor task launch worker-%d...原创 2020-03-16 00:13:23 · 1010 阅读 · 1 评论 -
spark优化
1:参考文档(1)美团技术团队—>文章归档—>2016年4月份Spark性能优化指南——基础篇https://tech.meituan.com/2016/04/29/spark-tuning-basic.htmlSpark性能优化指南——高级篇https://tech.meituan.com/2016/05/12/spark-tuning-pro.html(2)谷歌浏览器...原创 2020-03-14 22:57:39 · 152 阅读 · 0 评论 -
idea测试spark程序
1:编写spark的WordCount程序object WordCount {def main(args: Array[String]): Unit = {//创建spark配置val conf = new SparkConf().setAppName("ScalaWordCount")//创建spark入口val sc = new SparkContext(conf)//指定以后从...原创 2020-03-04 21:30:06 · 464 阅读 · 0 评论