Spark_关于我转生变成程序猿这档事的博客-优快云博客

Spark

关注

关注数：文章数：24 文章阅读量：21509 文章收藏量：25

作者: 关于我转生变成程序猿这档事

这个作者很懒，什么都没留下…

展开

专栏收录文章

【Spark】部署流程的深度了解

（多图慎入）首先有standalone和on-yarn各自的两种模式流程图，然后对on-yarn的cluster模式的源码进行了解读

原创 2020-04-17 13:11:20 · 396 阅读 · 3 评论
【Spark】SparkStreaming的容错机制

文章目录检查点机制驱动器程序容错工作节点容错接收器容错处理保证检查点机制Metadata checkpointing —— 将定义流计算的信息存入容错的系统如HDFS。Data checkpointing —— 将产生的RDDs存入可靠的存储空间。代码实现如下图val sparkContext = new SparkContext(new SparkConf())val ssc = n...

原创 2020-04-15 12:55:01 · 398 阅读 · 0 评论
【Spark】SparkStreaming和Kafka的整合

测试了0.8版本的Receiver DStream和Direct DStream，还有0.10版本的Direct DStream

原创 2020-04-15 12:18:15 · 884 阅读 · 0 评论
【Spark】SparkStreaming与flume进行整合

通过poll和pull的方式

原创 2020-04-15 00:42:07 · 736 阅读 · 0 评论
【Spark】SparkStreaming从不同基本数据源读取数据

基本数据源有文件数据源、自定义数据源、RDD队列；

原创 2020-04-14 20:41:52 · 1215 阅读 · 1 评论
【Spark】通过SparkStreaming实现从socket接受数据，并进行简单的单词计数

最基础的单词计数，socket发送什么就接收什么，不保留历史消息

原创 2020-04-14 16:17:54 · 1889 阅读 · 0 评论
【Spark】帮你搞明白怎么通过SparkSQL整合Hive

可以直接使用hql语句

原创 2020-04-14 02:19:20 · 209 阅读 · 0 评论
【Spark】这一篇或许能让你大概了解如何通过JavaAPI实现DataFrame的相关操作

主要是DataFrame的两种构建方式、DSL语句和SQL语句的使用

原创 2020-04-14 01:56:59 · 312 阅读 · 0 评论
【Spark】DataFrame关于数据常用操作

分别有DSL语法和SQL语法两种风格，本文关于DSL主要介绍了关于查询表中字段，对字段数据进行修改、过滤、分组统计等操作

原创 2020-04-13 23:49:19 · 709 阅读 · 0 评论
【Spark】通过创建DataFrame读取不同类型文件内容

主要有文本文件，json文件和parquet列式存储格式文件

原创 2020-04-13 22:09:50 · 620 阅读 · 0 评论
【Spark】Spark任务调度相关知识

主要有DAG(Directed Acyclic Graph)、shuffle和任务调度流程的相关知识

原创 2020-04-13 16:49:22 · 286 阅读 · 0 评论
【Spark】RDD的依赖关系和缓存相关知识点

文章目录RDD的依赖关系宽依赖窄依赖血统RDD缓存概述缓存方式RDD的依赖关系RDD和它依赖的父RDD的关系有两种不同的类型，即窄依赖（narrow dependency）和宽依赖（wide dependency）。宽依赖宽依赖指的是子RDD中的数据来源于父RDD中的多个分区，其实就是产生了shuffle窄依赖窄依赖指的是子RDD中的数据来源于父RDD当中的一个分区，也即没有产生...

原创 2020-04-13 12:01:53 · 299 阅读 · 0 评论
【Spark】如何用Spark查询IP地址？

通过Spark从多张表中查询对应ip地址、ip经纬度，并求取出现次数

原创 2020-04-13 02:26:24 · 2725 阅读 · 0 评论
【Spark】通过Spark实现点击流日志分析

分析包括统计PV、UV、求取指定数据的TopN

原创 2020-04-12 23:14:17 · 817 阅读 · 2 评论
【Spark】快来学习RDD的创建以及操作方式吧！

如何创建RDD？RDD的Transformation算子和Action算子的用法

原创 2020-04-08 17:49:34 · 874 阅读 · 0 评论
【Spark】RDD(Resilient Distributed Dataset)究竟是什么？

目录基本概念官方文档概述含义RDD出现的原因五大属性以单词统计为例，一张图熟悉RDD当中的五大属性解构图RDD弹性RDD特点分区只读依赖缓存checkpoint基本概念官方文档介绍RDD的官方说明：http://spark.apache.org/docs/latest/rdd-programming-guide.html概述含义RDD (Resilient Distributed D...

原创 2020-04-07 22:15:02 · 1008 阅读 · 0 评论
【Spark】使用java语言开发spark程序

目录步骤一、创建maven工程，导入jar包二、开发代码步骤一、创建maven工程，导入jar包<properties> <scala.version>2.11.8</scala.version> <spark.version>2.2.0</spark.version> </prope...

原创 2020-04-07 16:28:08 · 1928 阅读 · 0 评论
【Spark】Spark-shell案例——standAlone模式下读取HDFS上存放的文件

目录可以先用local模式读取一下步骤一、先将做测试的数据上传到HDFS二、开发scala代码standAlone模式查看HDFS上的文件步骤一、退出local模式，重新进入Spark-shell二、开发scala代码可以先用local模式读取一下步骤一、先将做测试的数据上传到HDFScd /export/servers/sparkdatashdfs dfs -mkdir -p /sp...

原创 2020-04-07 15:02:44 · 623 阅读 · 0 评论
【Spark】Spark-shell案例——单词计数统计

目录步骤一、准备本地文件以作测试二、通过 --master启动本地模式三、开发scala单词统计代码步骤一、准备本地文件以作测试在第一台机器执行mkdir -p /export/servers/sparkdatascd /export/servers/sparkdatas/vim wordcount.txthello mehello youhello her二、通过 --...

原创 2020-04-07 12:12:36 · 2321 阅读 · 0 评论
【Spark】不熟悉Spark-shell常用参数？这一张图就够了

原创 2020-04-07 11:25:03 · 422 阅读 · 0 评论
【Spark】一张图看懂Spark的运行架构，以standAlone模式为例

原创 2020-04-07 10:09:40 · 265 阅读 · 0 评论
【Spark】Spark必不可少的多种集群环境搭建方法

目录Local模式运行环境搭建小知识搭建步骤一、上传压缩包并解压二、修改Spark配置文件三、启动验证进入Spark-shell四、运行Spark自带的测试jar包standAlone模式运行环境搭建搭建步骤一、修改配置文件三、将配置好的安装包分发到其他机器四、启动Spark程序五、页面访问六、进入Spark-shell测试启动七、运行Spark自带的测试jar包HA模式运行环境搭建搭建步骤一、停...

原创 2020-04-06 23:45:42 · 777 阅读 · 0 评论
【Spark】必须要用CDH版本的Spark？那你是不是需要重新编译？

目录为什么要重新编译？步骤一、下载Spark的源码二、准备linux环境，安装必须软件三、解压spark源码，修改配置，准备编译四、开始编译为什么要重新编译？由于我们所有的环境统一使用CDH的软件版本，并且对应的CDH版本是5.14.0这个版本，所以我们也直接下载使用对应的spark5.14.0版本即可。但是由于spark对应的5.14.0的CDH版本的软件spark的版本还停留在spark...

原创 2020-04-06 15:39:47 · 1049 阅读 · 0 评论
【Spark】一起了解一下大数据必不可少的Spark吧！

目录Spark概述官网Spark是什么？特点Spark架构模块主要架构模块Spark CoreSpark SQLSpark StreamingMLlibGraghX集群管理器主要运行角色MasterWorkerExecutorTaskApplicationJobclientDriverSpark运行模式Spark概述官网http://spark.apache.org/Spark是什么？...

原创 2020-04-06 15:16:25 · 748 阅读 · 0 评论

Spark

作者: 关于我转生变成程序猿这档事

【Spark】部署流程的深度了解

【Spark】SparkStreaming的容错机制

【Spark】SparkStreaming和Kafka的整合

【Spark】SparkStreaming与flume进行整合

【Spark】SparkStreaming从不同基本数据源读取数据

【Spark】通过SparkStreaming实现从socket接受数据，并进行简单的单词计数

【Spark】帮你搞明白怎么通过SparkSQL整合Hive

【Spark】这一篇或许能让你大概了解如何通过JavaAPI实现DataFrame的相关操作

【Spark】DataFrame关于数据常用操作

【Spark】通过创建DataFrame读取不同类型文件内容

【Spark】Spark任务调度相关知识

【Spark】RDD的依赖关系和缓存相关知识点

【Spark】如何用Spark查询IP地址？

【Spark】通过Spark实现点击流日志分析

【Spark】快来学习RDD的创建以及操作方式吧！

【Spark】RDD(Resilient Distributed Dataset)究竟是什么？

【Spark】使用java语言开发spark程序

【Spark】Spark-shell案例——standAlone模式下读取HDFS上存放的文件

【Spark】Spark-shell案例——单词计数统计

【Spark】不熟悉Spark-shell常用参数？这一张图就够了

【Spark】一张图看懂Spark的运行架构，以standAlone模式为例

【Spark】Spark必不可少的多种集群环境搭建方法

【Spark】必须要用CDH版本的Spark？那你是不是需要重新编译？

【Spark】一起了解一下大数据必不可少的Spark吧！