
Spark
文章平均质量分 85
爱纹身的big数据
00后大数据菜鸟boy.
展开
-
这......Spark面试题!
1.什么是 Apache Spark? 它有什么特点?Apache Spark是一个分布式计算框架,它可以在大规模数据集上进行高效的数据处理和分析。它最初由加州大学伯克利分校的AMPLab开发,并于2013年成为Apache软件基金会的顶级项目。Apache Spark的特点包括:快速:相比于传统的MapReduce计算框架,Spark的计算速度更快。这是因为Spark使用内存计算,能够更高效地管理数据,同时也支持内存缓存。易于使用:Spark提供了Scala、Java、Python、R等原创 2023-03-28 09:09:37 · 2303 阅读 · 1 评论 -
惊了!10万字的Spark全文!
今天给大家分享一篇小白易读懂的 Spark万字概念长文,本篇文章追求的是力求精简、通俗易懂。希望能为新手的入门学习扫清障碍,从基础概念入手、再到原理深入,由浅入深地轻松掌握Spark。原创 2022-11-17 14:18:16 · 3587 阅读 · 0 评论 -
Structured Streaming快速入门详解(8)
接着上一篇《Spark Streaming快速入门系列(7)》,这算是Spark的终结篇了,从Spark的入门到现在的Structured Streaming,相信很多人学完之后,应该对Spark摸索的差不多了,Spark是一个很重要的技术点,希望我的文章能给大家带来帮助。第一章 Structured Streaming曲折发展史1.1. Spark StreamingSpark Streaming针对实时数据流,提供了一套可扩展、高吞吐、可容错的流式计算模型。Spark Streaming接原创 2020-08-13 10:31:51 · 2237 阅读 · 0 评论 -
Spark Streaming快速入门系列(7)
上一篇《SparkSQL快速入门系列(6)》,接下来给大家更新下一篇。第一章 Spark Streaming引入1.1. 新的场景需求●集群监控一般的大型集群和平台, 都需要对其进行监控的需求。要针对各种数据库, 包括 MySQL, HBase 等进行监控要针对应用进行监控, 例如 Tomcat, Nginx, Node.js 等要针对硬件的一些指标进行监控, 例如 CPU, 内存, 磁盘 等●还有很多很多1.2. Spark Streaming介绍●官网http://原创 2020-08-05 14:14:03 · 1744 阅读 · 0 评论 -
SparkSQL快速入门系列(6)
上一篇《SparkCore快速入门系列(5)》,下面给大家更新一篇SparkSQL入门级的讲解。第一章 Spark SQL概述1.1 Spark SQL官方介绍●官网http://spark.apache.org/sql/Spark SQL是Spark用来处理结构化数据的一个模块。Spark SQL还提供了多种使用方式,包括DataFrames API和Datasets API。但无论是哪种API或者是编程语言,它们都是基于同样的执行引擎,因此你可以在不同的API之间随意切换,它们各有各的特.原创 2020-07-31 13:57:03 · 1474 阅读 · 0 评论 -
SparkCore快速入门系列(5)
铁铁们,博主前段时间在做一些项目加上找工作所以到现在才更新,(__) 嘻嘻……博主现在已经工作啦,后期会给你们更新一些关于数据库以及报表开发的文章哦!接下来言归正传!!!!!!1、RDD详解1.1. 什么是RDD1.1.1 为什么要有RDD?在许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘中,不同计算阶段之间会重用中间结果,即一个阶段的输出结果会作为下一个阶段的输入。但是,之前的MapReduce框架采用非循环式的数据流模型,把中间结果写入到HDFS中,带来了大量的数据复制、磁盘.原创 2020-07-30 13:53:58 · 3541 阅读 · 1 评论 -
使用IDEA编写Spark程序(4)
在这里插入图片描述1、pom.xml●创建Maven项目并补全目录、配置pom.xml <?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-i...原创 2020-05-07 23:34:17 · 937 阅读 · 0 评论 -
Spark之三大集群模式—详解(3)
standalone集群模式铁子话不多说,开整 ↓↓↓↓↓↓1、集群角色介绍standalone独立集群模式–开发测试使用Spark是基于内存计算的大数据并行计算框架,实际中运行计算任务肯定是使用集群模式,那么我们先来学习Spark自带的standalone集群模式了解一下它的架构及运行机制。Standalone集群使用了分布式计算中的master-slave模型,master...原创 2020-04-17 22:02:52 · 1774 阅读 · 0 评论 -
快速搭建Spark环境之local本地模式-Spark初体验(2)
Spark环境搭建上一篇《大数据最火的Spark你确定不来了解一下吗?(1)》给大家详细介绍了Spark,下面教给大家怎样去搭建Spark的环境.铁子话不多说,开整 ↓↓↓↓↓↓■我们选择目前企业中使用最多的稳定版Spark2.2.0■使用Apache版还是CDH版?1.Apache版直接下载官方编译好的基于Apache Hadoop的Spark即可2.自己下载Spark源码基于C...原创 2020-04-17 21:21:59 · 844 阅读 · 0 评论 -
大数据最火的Spark你确定不来了解一下吗?(1)
上一阶段给大家分享的Scala,这一阶段是Spark,学Spark的前提得先熟悉,并且熟练操作Scala,下面先给大家介绍一下Spark!!!!!!文章目录:Spark概述1. Spark官方介绍2. Spark特点3. 激动人心的Spark发展史4. Spark为什么会流行5. Spark运行模式Spark概述1. Spark官方介绍●Spark是什么Apache Spark...原创 2020-04-05 21:37:28 · 1063 阅读 · 0 评论