
spark
文章平均质量分 86
蛋蛋淡淡定
我是工程师这个简介够不够。
展开
-
spark-submit提交job任务解决三方依赖方案
spark-submit提交job任务解决三方依赖方案spark-submit提交job任务解决三方依赖方案spark-submit提交job任务解决三方依赖方案在spark 安装目录spark/jars 下面添加需要加装的jar包,此方法需要在每个节点都放入jar包或者在spark/conf/spark-defaults.conf 文件下面添加如下两行spark.executor.extraClassPath=/root/bigData/apache-maven-3.6.3/lib/*spar原创 2021-03-25 14:55:19 · 560 阅读 · 0 评论 -
SparkSQL零基础入门(11):sparkSQL的概述与SparkSession/RDD/DataFream/DataSet的概述
Spark零基础入门第十一课:sparkSQL没有看前面的同学可以回顾一下:10.Spark零基础入门第十课:spark数据倾斜后怎么办??9.Spark性能优化-开发调优8.SparkCore 调优之内存模型8.SparkCore 调优之内存模型7.SparkCore 核心知识复习与核心机制详解6.Spark共享变量之累加器和广播变量的使用!!!5.RDD常用算子用法训练(附习题答案)(aggregateByKey与combineByKey)!!!4.Spark Rdd常用算子和RD原创 2020-08-23 19:05:54 · 758 阅读 · 0 评论 -
Spark零基础入门第十课:spark数据倾斜后怎么办??
Spark零基础入门第九课:spark数据倾斜没有看前面的同学可以回顾一下:9.Spark性能优化-开发调优8.SparkCore 调优之内存模型8.SparkCore 调优之内存模型7.SparkCore 核心知识复习与核心机制详解6.Spark共享变量之累加器和广播变量的使用!!!5.RDD常用算子用法训练(附习题答案)(aggregateByKey与combineByKey)!!!4.Spark Rdd常用算子和RDD必备知识3.spark core 核心知识2.spark 之原创 2020-06-19 16:00:01 · 978 阅读 · 0 评论 -
从0开始学习spark(9)Spark性能优化-开发调优
Spark零基础入门第九课没有看前面的同学可以回顾一下:8.SparkCore 调优之内存模型7.SparkCore 核心知识复习与核心机制详解6.Spark共享变量之累加器和广播变量的使用!!!5.RDD常用算子用法训练(附习题答案)(aggregateByKey与combineByKey)!!!4.Spark Rdd常用算子和RDD必备知识3.spark core 核心知识2.spark 之 wordcount入门1.spark 入门讲解...原创 2020-06-16 10:37:21 · 385 阅读 · 0 评论 -
从0开始学习spark(8)SparkCore 调优之内存模型
Spark零基础入门第八课没有看前面的同学可以回顾一下:7.SparkCore 核心知识复习与核心机制详解6.Spark共享变量之累加器和广播变量的使用!!!5.RDD常用算子用法训练(附习题答案)(aggregateByKey与combineByKey)!!!4.Spark Rdd常用算子和RDD必备知识3.spark core 核心知识2.spark 之 wordcount入门1.spark 入门讲解...原创 2020-06-02 09:44:50 · 1085 阅读 · 0 评论 -
从0开始学习spark(7)SparkCore 核心知识复习与核心机制详解
Spark零基础入门第七课Spark 的核心概念 :Spark 运行架构特点Spark运行架构图:spark stage 阶段划分算法图:spark-on-yarn 模式图:sparkContext的构建的过程Spark MasterHA机制Worker节点的原理没有看前面的同学可以回顾一下:**6.Spark共享变量之累加器和广播变量的使用!!!5.RDD常用算子用法训练(附习题答案)(aggregateByKey与combineByKey)!!!4.Spark Rdd常用算子和RDD必备知识原创 2020-05-28 09:46:55 · 626 阅读 · 0 评论 -
从0开始学习spark(6)Spark共享变量之累加器和广播变量的使用!!!
Spark零基础入门第六课1. spark共享变量(Shared Variables)1.1 简介:1.2 为什么要定义广播变量 :1.3 、如何定义和还原一个广播变量 :2. Accumulators(累加器)2.1 为什么要定义累加器 :2.2 如果定义和还原一个累加器3. 自定义累加器:每日福利来一个。没有看前面的同学可以回顾一下:5.RDD常用算子用法训练(附习题答案)(aggregateByKey与combineByKey)!!!4.Spark Rdd常用算子和RDD必备知识3.sp原创 2020-05-20 19:30:22 · 438 阅读 · 0 评论 -
从0开始学习spark(5)RDD常用算子用法训练(附习题答案)(aggregateByKey与combineByKey)!!!
Spark零基础入门第五课常见的transformation算子练习:常用的action算子练习:在这些基本的了解之后,给大家来两个高级调优的聚合算子的用过:combineByKeyaggregateByKey**最后我们做一些练习巩固一下常用算子:**拉钩网职位数据练习题每日福利来一个,话不多说,我们直接开始今天的spark RDD的实战练习代码,我们学习编程,还是要多实战,在实战中我们才能领悟到平时很难理解的知识点,下面我们开始我们今天的训练吧!没有看前面的同学可以回顾一下:4.Spark Rd原创 2020-05-10 10:48:30 · 1071 阅读 · 2 评论 -
从0开始学习spark(4)Spark Rdd常用算子和RDD必备知识!!!
Spark零基础入门第三课1. RDD1.1 什么是RDD1.2 RDD 的属性2. 创建 RDD3. RDD常见的算子介绍3.1 Transformation 类算子:3.2 action 类算子:3.3 WordCount 中的 RDD4. RDD的依赖关系4.1 窄依赖和宽依赖对比4.2、窄依赖和宽依赖总结4.3、Lineage5. DAG 生成6. RDD 缓存6.1 RDD 的缓存方式每日福利来一个,话不多说,我们直接开始今天的spark的学习,之前我们学习了Spark的基础原理,和概念,然后原创 2020-05-09 13:16:03 · 885 阅读 · 0 评论 -
从0开始学习spark(3)Spark Core 核心知识
Spark零基础入门第三课1. Spark作业调度方式1.1 cluster 和 client 的区别2. spark 核心功能介绍:2.1 SparkContext2.2 存储体系2.3 计算引擎2.4 部署模式3. Spark 扩展功能3.1 Spark SQL3.2 Spark Streaming3.3 Spark GraphX3.4 Spark MLlib4. spark基本结构spark...原创 2020-04-23 22:56:41 · 717 阅读 · 0 评论 -
从0开始学习spark的学习笔记(2)手把手教你Spark第一个程序WorldCount
Spark零基础入门第二课在 IDEA 中编写第一个Spark程序 WordCount修改 Spark 的日志级别所谓学习是要在快乐中进行的,每天放松一下。在 IDEA 中编写第一个Spark程序 WordCount昨天我们学习了spark的本地搭建和一些基本的概念之后,我们今天开始我们的第一个程序的搭建。(在生产环境中,通常会在 IDEA 中编 制程序,然后打成 jar 包,然后提交到...原创 2020-04-22 21:58:44 · 580 阅读 · 1 评论 -
从0开始学习spark的学习笔记(1)
所谓学习是要在快乐中进行的,这是我用了多年的桌面壁纸现在传给大家。Spark零基础入门第一课1.大数据生态简介:2.Spark 简介:3. spark 本地安装和集群安装:3.1 spark下载选择4. spark的关键概念:MasterWorkerApplicationRDD:弹性式分布式数据集(resilient distributed dataset)jobSparkContextDriv...原创 2020-04-21 22:25:02 · 1452 阅读 · 2 评论 -
scala基础知识复习!武汉加油!
scala基础知识复习最近都不能去武汉了,只能在家宅着。我们还是来复习一下平时的最基础的scala的知识吧。1.1 那我们开始最基础的hello,world吧package com.mazh.scala.helloworld object HelloWorld { // 作用类似于 java 中的 main 方法 def main(args: Array[String]): ...原创 2020-02-01 13:54:41 · 461 阅读 · 0 评论 -
Spark集群HA环境搭建教程
首先搭建Spark集群,我们用时Spark的原生的安装包,之前的环境还是我前面搭建起来的Hadoop的环境,话不多说,我们开始搭建环境。Spark 集群安装 :spark官网首页:http://spark.apache.org/downloads.html或者其他镜像站:https://mirrors.tuna.tsinghua.edu.cn/apache/spark/ https://...原创 2019-11-30 14:52:49 · 826 阅读 · 0 评论 -
Spark 和与MR的区别
1.1、MapReduce 的发展1.1.1、MRv1 的缺陷早在 Hadoop1.x 版本,当时采用的是 MRv1 版本的 MapReduce 编程模型。MRv1 版本的实现 都封装在 org.apache.hadoop.mapred 包中,MRv1 的 Map 和 Reduce 是通过接口实现的。MRv1 包括三个部分: 运行时环境(JobTracker 和 TaskTracker) 编程...原创 2019-11-28 13:38:31 · 1826 阅读 · 0 评论 -
spark 基础概率与编程wordcount入门1 javaAPI版本
首先学习Spark我们先简单介绍一下spark的基本概念, Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以...原创 2019-11-27 10:37:50 · 195 阅读 · 0 评论 -
spark的两大类算子action算子和transformation算子的常用算子的使用用例
Spark的算子的分类从大方向来说,Spark 算子大致可以分为以下两类:1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。2)Action 行动算子:这类算子会触发 Sp...原创 2019-08-02 15:37:22 · 1664 阅读 · 0 评论 -
window本地搭建spark测试环境!
本篇文章也是我参照着网上和自己的一些搭建过程来总结的一些步骤,小白新手大佬勿喷。希望分享一下自己的一下成长过程每天记录一点平常做过的一些事情。一 . 首先我们安装一个软件我们肯定要有它的安装包,我给个网站Apache的一个资源库:http://archive.apache.org/dist/spark/spark-2.2.2/ 这个是下载spark2.2.2版本的,这个版本需要jdk1.8 和 ...原创 2019-07-04 17:42:11 · 1840 阅读 · 0 评论