spark
邵奈一
全栈工程师、市场洞察者、微信:shaonaiyi888
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark GraphX 快速入门
教程目录0x00 教程内容0x01 Spark GraphX 图计算1. GraphX 介绍2. GraphX 的使用场景0x02 GraphX 理论基础1. GraphX 的使用2. 属性图3. 属性图编程示例0xFF 总结0x00 教程内容0x01 Spark GraphX 图计算1. GraphX 介绍GraphX 是 Spark 四大核心组件之一,它也是使用 Spark 作为计算引擎的,GraphX 是用于图形和图形并行计算的组件,实现了大规模图计算的功能。GraphX 的出现使 S原创 2020-09-21 09:19:31 · 3501 阅读 · 0 评论 -
Spark Streaming 快速入门(实操)
教程目录0x00 教程内容0x01 Spark Streaming 编程1. 启动Spark Shell2. 创建 StreamingContext 对象3. 创建 DStream 对象4. 对 DStream 进行操作5. 输出数据0x02 校验结果并删除测试数据1. 查看统计结果2. 删除测试数据0xFF 总结0x00 教程内容Spark Streaming 编程校验结果并删除测试数据本案例是在官方文档上做了一定的修改,实现的过程非常简单:开启一个 Spark Streaming 应用,实原创 2020-09-01 14:11:06 · 1444 阅读 · 0 评论 -
Spark Streaming 快速入门(理论)
教程目录0x00 教程内容0x01 Spark Streaming 相关概念1. Spark Streaming 介绍2. DStream 介绍0x021.2.0xFF 总结0x00 教程内容0x01 Spark Streaming 相关概念1. Spark Streaming 介绍Spark Streaming 是在 Spark 上建立的可扩展的、高吞吐量的、实时处理流数据的框架,数据可以来自于多种不同的源,例如 Kafka、Flume、HDFS/S3、Twitter、ZeroMQ 或者原创 2020-08-31 23:08:39 · 682 阅读 · 0 评论 -
Spark SQL快速入门(进阶)
教程目录0x00 教程内容0x011.0xFF 总结缺图0xFF 总结0x00 教程内容0x011.a.b.c.0xFF 总结现在我们学完了 spark 利用 spark SQL 进行结构化和半结构化数据处理的方式。很多时候,我们会把 SQL 语言和其它编程语言结合起来使用,以充分利用 SQL 的简洁性和编程语言擅长表达复杂逻辑的优点。因此在spark进行数据处理的过程中,我们依然可以利用 spark SQL 对数据查询进行优化。实验知识点Spark SQL 简介Spar原创 2020-08-30 16:39:11 · 1256 阅读 · 0 评论 -
Spark SQL快速入门(基础)
教程目录0x00 教程内容0x01 Spark SQL相关概念1. Spark SQL介绍2. DataFrame介绍0x02 Spark SQL 实战入门1. 数据准备2. 编程缺图0xFF 总结0x00 教程内容0x01 Spark SQL相关概念1. Spark SQL介绍Spark SQL 作为 Spark 四大核心组件之一,主要用于处理结构化数据或半结构化数据,它支持在Spark 中使用 SQL 对数据进行查询,还可以从各种外部数据源中导入数据并将其进行处理。它会提供底层的优化操作原创 2020-08-26 10:41:40 · 1572 阅读 · 0 评论 -
Spark综合小案例之莎士比亚诗文集词频统计
教程目录0x00 教程内容0x011.2.0x021.2.0xFF 总结0x00 教程内容实验知识点Spark 编程模型词频统计算法Scala 语言开发 Spark 应用编译打包提交到集群执行主要针对 RDD 进行各种操作,程序中的步骤:提取数据到 RDD 中,在本实验中我们将莎士比亚文集和停词表文件转换成 RDD。转换(transformations)操作,将已存在的数据集转换成新的数据集,例如 map。转换是惰性的,不会立刻计算结果,仅仅记录转换操作应用的目标数据集,当动原创 2020-08-13 00:57:52 · 1630 阅读 · 0 评论 -
Spark RDD算子进阶(转换算子、行动算子、缓存、持久化)
0x00 教程内容0x01 进阶算子操作1. 创建RDD2. 转换算子3. 行动算子0x02 RDD的缓存与持久化1. 缓存与持久化的意义2. 缓存3. 持久化原创 2020-07-10 15:07:13 · 1055 阅读 · 0 评论 -
Spark RDD高级应用(传参、闭包、共享变量)
教程目录0x00 教程内容0x01 向Spark传递参数的方式1. 匿名函数2. 传入静态方法和传入方法的引用0x02 闭包1. 闭包的概念2. 闭包实操3. 打印 RDD 的元素0x03 共享变量1. 广播变量0xFF 总结0x00 教程内容0x01 向Spark传递参数的方式Spark 中的大部分操作都依赖于用户传递的函数,主要有两种方式:方式一:匿名函数方式二:传入静态方法和传入方法的引用1. 匿名函数在前面的教程中,我们用到了很多次这种方式,如这句:val wordRDD =原创 2020-07-09 21:52:18 · 1634 阅读 · 0 评论 -
Spark RDD的实操教程(二)
教程目录0x00 教程内容0x01 RDD 的算子操作1. 算子介绍a. 两种算子类型b. 举个例子c. 总结2. 转化算子(transformations算子)3. 行动算子(actions算子)0x021.2.0xFF 总结0x00 教程内容上一篇教程:Spark RDD的实操教程(一) 我们已经对RDD有了基本的认识,接下来我们继续学习各种各样的算子。0x01 RDD 的算子操作1. 算子介绍RDD 支持两种算子操作,分别是转换(transformations)算子和行动(actio原创 2020-07-09 00:53:03 · 766 阅读 · 0 评论 -
Spark RDD的实操教程(一)
教程目录0x00 教程内容0x01 RDD 概念1. RDD 简介2. RDD 特点0x02 RDD 的创建方式1. 环境准备2. 三种创建方式2.0xFF 总结0x00 教程内容实验知识点RDD 简介连接并初始化 SparkSpark RDD 数据源RDD 的转化操作RDD 的行动操作0x01 RDD 概念1. RDD 简介RDD(Resilient Distributed Databases),即弹性分布式数据集,它是 Spark 对数据的核心抽象,也就是 Spark 对于数原创 2020-07-08 10:04:22 · 1581 阅读 · 3 评论 -
Spark Shell入门教程
教程目录0x00 教程内容0x011.0x021.2.0xFF 总结0x00 教程内容学习前提:有一定的Scala基础、基本的 Linux 基础,对Spark有一定的概念,并且安装好了Spark环境。其他参考教程:1、分布式集群环境之Scala的安装与配置(Centos7)2、分布式集群环境之Spark的安装与配置(Centos7)0x011.Spark-Shell是 Spark 自带的一个 Scala 交互 Shell ,可以以脚本方式进行交互式执行,类似直接用 Python 及其原创 2020-07-07 10:07:29 · 11728 阅读 · 0 评论
分享