
Spark
Oasen
黑森林法则
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark 获取 Hbase 数据
<?xml version="1.0" encoding="UTF-8"?><project xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="http://maven.apache.org/POM/4.0.0" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0原创 2020-07-19 22:52:39 · 502 阅读 · 0 评论 -
createOrReplaceGlobalTempView 运行时找不到表
SparkConf conf = new SparkConf().setAppName("AppTest");conf.setMaster("local");SparkSession spark = SparkSession.builder().config(conf).getOrCreate();spark.sparkContext().setLogLevel("ERROR");Da...原创 2020-06-09 14:43:40 · 1347 阅读 · 0 评论 -
RDD to DataFrame
将 RDD 转化成 DF,有两种方式:利用 schema 来从 RDD<String>\,转化为 RDD<Row>\,再转化成 DataFrame。构造 bean 对象来从 RDD 转化成 Dataset,再转化成 DataFrame。以 schema 来构建 DataFrame//1. 将 JavaRDD<String> 转换为 JavaRDD<Row>JavaRDD<Row> inRDD = jsc.textFile("in/1.原创 2020-06-08 11:35:35 · 292 阅读 · 0 评论 -
Spark之内核架构剖析
之前在 Spark学习笔记之调度 就已经大致描述了应用程序的调度。现在就再详细的剖析下这个过程。如图所示:Application 通过 submit 被提交到机器上后,该节点会启动一个 Driver 进程。Driver 来开始执行 Application 应用程序,首先会初始化 SparkContext,实例化SparkContext;SparkContext 实例化后,就会构建 DAGS...原创 2019-05-30 11:33:23 · 4126 阅读 · 3 评论 -
Spark 之 SparkContext 原理剖析
代码下载于 github,使用分支是 origin/branch-2.4Driver 进程被启动时,会实例化 SparkContext 对象,然后 SparkContext 在构建 DAGScheduler 和 TaskScheduler 对象。这句话在 Spark学习笔记之调度 基本上都会被提及,这篇就从源码角度来剖析这个问题。首先从 SparkContext 源码入手:-- Spa...原创 2019-05-30 14:50:19 · 967 阅读 · 0 评论 -
Spark 二次排序
二次排序自定义类继承 Comparable, Serializable数据1 52 43 61 32 1自定义类,继承 Comparable, Serializablepackage com.core.demo;import java.io.Serializable;public class SecondarySortKey implements Comparab...原创 2019-05-28 00:29:52 · 763 阅读 · 0 评论 -
Spark: topN
针对一串数字进行 Top 的处理原创 2019-05-29 01:01:04 · 266 阅读 · 0 评论 -
Spark 之 TaskScheduler 原理剖析
DAGSchedular 将划分的一系列 stage,按照 Stage 的先后顺序依次提交给底层的 TaskSchedular 去执行。现在就来探究下 TaskScheduler 的原理。DAGScheduler 创建 Stage 时,已经跟踪到了 submitStage,当创建 stage 完成后,就会调用 submitMissingTasks。submitMissingTasks 主要是将...原创 2019-06-19 17:04:20 · 797 阅读 · 0 评论 -
Spark 之 DAGScheduler 原理剖析
代码下载于 github,使用分支是 origin/branch-2.4DAGScheduler 是实现了 面向 stage 的调度的 高层次的调度层,它可以为每个 job 计算出一个 DAG,追踪 RDD和 stage 的输出是否被持久化,并且寻找到一个最优调度机制来运行 job,它会将 stage 作为 taskset 提交到底层的 TaskScheduler 来发送到集群上运行这些 t...原创 2019-06-10 12:41:01 · 594 阅读 · 0 评论 -
Spark学习笔记
简介Spark是专为大规模数据处理而设计的快速通用的计算引擎,其是由scala语言编写而成。如下图所示,这是显示了Spark standalone应用程序上下文中所有的Spark组件。Spark应用程序是由一个Driver(驱动程序)和一组Executor进程组成。Driver进程负责运行main函数,其进程位于集群的一个节点上。其主要:维护有关Spark应用程序的信息;响应用户的...原创 2020-06-20 13:51:24 · 421 阅读 · 0 评论 -
SparkSQL学习笔记
简介SparkSQL 是 Spark 计算框架的一个主要模块,与基本的 Spark RDD API 不同,SparkSQL 为 Spark 提供了更多的原创 2020-07-02 23:24:40 · 516 阅读 · 0 评论 -
Spark 安装配置
Spark分布式安装规划节点IP节点名称节点备注192.168.206.128bigdata01Master节点192.168.206.129bigdata02Worker节点192.168.206.130bigdata03Worker节点配置集群节点间免密码登录。见《完全分布式 Hadoop配置》在集群节点上安装JDK8,设置J...原创 2019-04-15 23:24:59 · 331 阅读 · 0 评论