Spark
Spark
zhouyanjun_
一直在学习。。。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark中出现org.apache.htrace找不到的错误
spark中出现org.apache.htrace找不到的错误原创 2023-02-08 15:53:43 · 288 阅读 · 0 评论 -
spark-core优化之提交任务到yarn,动态分配资源
动态资源分配。原创 2022-12-13 22:12:45 · 325 阅读 · 1 评论 -
idea提交Job至YARN集群
idea提交任务到yarn原创 2022-12-12 14:05:54 · 447 阅读 · 0 评论 -
Spark提交任务的流程以及各个节点组件的作用
Spark作业提交流程spark-submit 提交代码,Driver 执行 new SparkContext(),在 SparkContext 里构造 DAGScheduler 和 TaskScheduler。TaskScheduler 会通过后台的一个进程,连接 Master,向 Master 注册 Application。Master 接收到 Application 请求后,会使用相应的资源调度算法,在 Worker 上为这个 Applicat原创 2020-10-26 23:33:05 · 546 阅读 · 0 评论 -
spark的累加器解析及小案例
val sum = sc.longAccumulator("sum1")/** * Create and register a long accumulator, which starts with 0 and accumulates inputs by `add`. */ def longAccumulator(name: String): LongAccumulator = { val acc = new LongAccumulator register(acc, n原创 2020-09-27 23:33:11 · 610 阅读 · 0 评论 -
Spark任务调度源码分析
自上而下的思想提交job ——获取宽依赖 ———创建stage——创建Task//任意行动算子,点进去resultRDD.collect()def collect(): Array[T] = withScope { val results = sc.runJob(this, (iter: Iterator[T]) => iter.toArray)**//runJob运行 作业任务** Array.concat(results: _*) }def runJob[T, U原创 2020-09-26 20:27:47 · 343 阅读 · 0 评论 -
Spark基本知识-待修改版
1.Spark内置模块包括哪些?请分别简述其功能。Spark Core:实现了Spark 的基本功能:任务调度内存调度错误恢复与存储系统交互对RDD(Resilient Distributed DataSet)的API的定义Spark SQL:是Spark用来操作结构化数据的程序包. 可以通过SQL或Hive版本的(HQL)查询数据.Spark Streaming:是Spark提供的对实时数据进行流式计算的组件.提供了用于操作数据流的API,且与Spark Core中的RDD原创 2020-09-24 00:21:16 · 300 阅读 · 0 评论 -
FileStatus类介绍
FileStatus类介绍FileStatus对象封装了文件系统中文件和目录的元数据,包括文件的长度、块大小、备份数、修改时间、所有者以及权限等信息。FileStatus对象一般由FileSystem的getFileStatus()方法获得,调用该方法的时候要把文件的Path传递进去。FileStatus字段解析private Path path; // Path路径private long length; // 文件长度priva原创 2020-09-23 17:52:17 · 1276 阅读 · 0 评论 -
创建RDD的分区切片及读取分区中数据的源码解析
Desc:通过读取外部文件的方式创建RDD的分区规则-在textFile中,第二个参数为minPartitions表示最小分区数,注意是最小,不是实际最终磅定的分区数-在实际分区的过程中,会根据处理的文件的总大小(字节数)初最小分区数进行相除运算>余数为0,那么最小分区数,就是实际的分区数>余数不为0,那么实际分区数 大于 最小分区数val rdd: RDD[String] = sc.textFile("input", 3)//minPartitions表示最小分区数def原创 2020-09-23 15:22:53 · 579 阅读 · 0 评论 -
8.Spark内核
Spark内核所谓的内核,就是Spark内部核心原理。一、内核解析的分解Spark应用的提交Spark内部的通信Spark作业的调度任务的执行spark内存管理二、 SparkSubmit--本章节讲述job提交应用以后,环境的准备工作。主要包含以下:1. spark向yarn提交job的过程2. yarn中application、driver、executor、container是如何相互响应提交应用bin/spark-submit \--class org.a原创 2020-09-20 16:43:04 · 175 阅读 · 0 评论 -
7.SparkStreaming
SparkStreaming一、SparkStreaming 介绍 --0. 几个概念 a、'实时':数据处理的延迟,以毫秒级进行响应 b、'离线':数据处理的延迟,以小时、天、月、年为级别响应 c、'批处理':数据处理的方式,一次处理一批数据 d、'流式处理':数据处理的方式,和水流相似,来一条数据处理一条数据,来一点处理一点,一个一个的处理。 --1. 什么是SparkStreaming a、流式数据原创 2020-09-20 16:40:35 · 166 阅读 · 0 评论 -
6.SparkSQL
SparkSQL一、 SparkSQL概述1.1 SparkSQL是什么?Spark SQL是Spark用于"结构化数据"(structured data)处理的Spark模块1.2 Hive 和 SparkSQL解析Hive和SparkSQL之间的关系1. Hive是SQL-on-Hadoop的工具,但由于底层还是基于MR,所以效率低。2. 产生了大量提升SQL-on-Hadoop的工具,表现较为突出的是:DrillImpalaShark3. Shark是Spar原创 2020-09-20 16:40:15 · 216 阅读 · 0 评论 -
4. Spark实战项目——电商指标统计
Spark实战项目——电商指标统计一、引言 在实战项目中,根据不同的需求进行编程,由于需求不同,核心的计算逻辑会不同,但是其他的一些代码,如获取环境变量、读取文件等等操作是固定。本次我们采用编写框架的模式来完成我们的需求,这样的优势有:代码的扩展性强;减少代码的冗余;将相同的功能进行封装,降低代码的耦合度;将代码进行分层次,代码的逻辑看起来就非常的清晰。采用框架的方式,在企业实际生产环境中是非常有优势的,希望大家能够学以致用。1.1 框架设计原理原创 2020-09-20 16:36:14 · 1254 阅读 · 1 评论 -
3.Spark编程2
Spark编程2接2.Spark架构及编程五、Spark核心编程5.6 累加器5.6.1 累加器基本介绍-- 1.什么是累加器? 分布式共享只写变量,使用累加器完成数据的累加。 1. 分布式:每一个executor都拥有这个累加器 2. 共享:Driver中的变量原封不动的被executor拥有一份副本 3. 只写:同一个executor中可以对这个变量进行改值,其他的executor不能读取。 -- 2.累加器用来解决什么问题? 1. 想通过没有原创 2020-09-20 16:35:23 · 135 阅读 · 0 评论 -
2.Spark架构及编程
Spark架构及编程接Spark环境的安装四、Spark运行框架4.1 运行框架--1. Spark框架可以理解三个部分组成第一部分: Driver + Executor --> 任务执行和调度第二部分: Master + Worker --> Saprk自身的资源调度框架第三部分: Cluster Manager --> 集群管理,中间件Driver + Executor-- Driver:驱动器 1. 用于执行Spark任务中的m原创 2020-09-20 16:34:53 · 247 阅读 · 0 评论 -
1.Spark环境的安装
Spark环境的安装一、 Spark简介1.1 Spark是什么是一种基于内存的快速、通用、可拓展的大数据分析计算引擎。1.2 Hadoop 和 Spark关联hadoop :2013年10月发布2.X (Yarn)版本;spark : 2013年6月,Spark成为了Apache基金会下的项目。Spark可以理解为hadoop MR的升级版。1.2.1 hadoop发展历史-- 1.X 版本 --2011年发布从架构的角度存在很多的问题1. Namenode 是单原创 2020-09-20 16:34:27 · 289 阅读 · 0 评论
分享