自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(66)
  • 收藏
  • 关注

原创 spark

弹性分布式数据集(RDD):Spark 的基本数据结构,支持多种操作,如 map、reduce、filter 等,提供了高效的数据共享和容错机制。Spark 是一个开源的大数据计算框架,提供了高效的内存计算和多种数据处理模型,适合批处理、实时流处理、机器学习和图计算等多种应用场景。内存计算:Spark 将中间数据保存在内存中,避免了磁盘读写,提高了计算效率。但是,内存资源不足可能导致 Job 执行失败。容错机制:基于 Lineage 的容错机制和检查点方式,确保数据在内存计算中的安全性。

2025-05-18 16:08:54 137

原创 spark

RDD(弹性分布式数据集):是Spark中最基本的数据抽象,它代表一个不可变、可分区、分布式的数据集。- 转换(Transformation):是对RDD进行的懒操作,如map、filter、flatMap等,它们返回一个新的RDD,不会立即计算结果,只是定义了计算逻辑。- DAG(有向无环图):是Spark任务的逻辑执行计划,由一系列的RDD转换和行动操作组成。- 行动(Action):是触发RDD计算的操作,如count、collect、save等,会将计算结果返回到驱动程序或保存到外部存储。

2025-05-16 05:45:16 143

原创 spark

Spark SQL:用于处理结构化数据。它提供了类似于 Hive SQL 和 MySQL 的功能,允许用户使用 SQL 语句查询和操作数据,适合企业中需要进行报表统计的场景。Spark Streaming:用于实时数据流处理。它提供了 API 来操作实时流数据,能够从 Kafka 等数据源接收数据并进行实时统计,适用于需要实时处理数据的场景。

2025-05-16 05:44:44 139

原创 spark

Spark Core:负责 Spark 的基本功能,包括任务调度、内存管理和容错机制。它定义了弹性分布式数据集(RDD),提供了丰富的 API 来创建和操作这些数据集,为其他组件提供了底层服务。

2025-05-16 05:44:07 98

原创 spark

Spark支持多种编程语言,如Scala、Java、Python等。# 执行行动操作,将结果收集到驱动程序。# 创建SparkSession。# 停止SparkSession。# 读取文本文件创建RDD。# 对RDD进行转换操作。

2025-05-16 05:43:12 215

原创 spark

安装 Scala 并设置环境变量 SCALA_HOME。将 Scala 的 bin 目录添加到系统的 PATH 中,并验证 Scala 安装是否成功。

2025-05-16 05:42:40 87

原创 spark

设置 Hadoop 的核心配置文件 core-site.xml,指定 HDFS 的地址和默认文件系统。创建必要的目录结构,并确保 Hadoop 用户对这些目录有适当的权限。

2025-05-16 05:41:37 71

原创 spare

Spark SQL:用于处理结构化数据。它提供了类似于 Hive SQL 和 MySQL 的功能,允许用户使用 SQL 语句查询和操作数据,适合企业中需要进行报表统计的场景。Spark Streaming:用于实时数据流处理。它提供了 API 来操作实时流数据,能够从 Kafka 等数据源接收数据并进行实时统计,适用于需要实时处理数据的场景。

2025-05-16 05:40:53 106

原创 spare

MLlib:包含通用的机器学习功能。它提供了分类、聚类、回归等算法,并支持模型评估和数据导入,所有方法都支持在集群上的横向扩展,适合需要进行大规模机器学习的场景。Graphx:用于处理图数据。它提供了各种图操作和常用的图算法,如 PageRank 算法,适用于处理社交网络图等复杂图结构数据的场景。

2025-05-16 05:40:21 98

原创 spark

一个 Spark 应用程序由一个 Driver 和多个 Job 组成,一个 Job 由多个 Stage 组成,一个 Stage 由多个没有 Shuffle 关系的 Task 组成。Driver 负责与 Cluster Manager 通信,进行资源申请、任务分配和监控,而 Executor 则负责运行 Task 并返回结果。RDD:弹性分布式数据集,是分布式内存的抽象概念,提供了一种高度受限的共享内存模型。Job:由多个 RDD 和作用于相应 RDD 上的操作组成。Stage:是 Job 的基本调度单位。

2025-05-16 05:39:49 122

原创 spark

一个 Spark 应用程序由一个 Driver 和多个 Job 组成,一个 Job 由多个 Stage 组成,一个 Stage 由多个没有 Shuffle 关系的 Task 组成。Driver 负责与 Cluster Manager 通信,进行资源申请、任务分配和监控,而 Executor 则负责运行 Task 并返回结果。RDD:弹性分布式数据集,是分布式内存的抽象概念,提供了一种高度受限的共享内存模型。Job:由多个 RDD 和作用于相应 RDD 上的操作组成。Stage:是 Job 的基本调度单位。

2025-05-16 05:37:55 184

原创 spark框架3

MLlib:包含通用的机器学习功能。它提供了分类、聚类、回归等算法,并支持模型评估和数据导入,所有方法都支持在集群上的横向扩展,适合需要进行大规模机器学习的场景。Graphx:用于处理图数据。它提供了各种图操作和常用的图算法,如 PageRank 算法,适用于处理社交网络图等复杂图结构数据的场景。

2025-05-13 12:26:08 95

原创 spark框架2

2025-05-13 12:25:37 172

原创 spark框架

2025-05-13 12:25:06 166

原创 55555

设置 Hadoop 的核心配置文件 core-site.xml,指定 HDFS 的地址和默认文件系统。创建必要的目录结构,并确保 Hadoop 用户对这些目录有适当的权限。

2025-05-13 12:23:51 94

原创 44444

上传并解压 Spark 安装包。设置环境变量 SPARK_HOME,并将其 bin 和 sbin 目录添加到系统的 PATH 中。编辑 conf/spark-env.sh 文件以配置 Spark 环境,包括 Java 和 Scala 的安装目录,以及 Spark Master 和 Worker 节点的相关信息。

2025-05-13 12:23:20 80

原创 33333

安装 Scala 并设置环境变量 SCALA_HOME。将 Scala 的 bin 目录添加到系统的 PATH 中,并验证 Scala 安装是否成功。

2025-05-13 12:22:49 118

原创 22222

确保安装的 JDK 版本为 1.8。设置环境变量 JAVA_HOME,并将其添加到系统的 PATH 中。验证 JDK 安装是否成功。

2025-05-13 12:22:18 124

原创 11111

编辑 /etc/selinux/config 文件,将 SELINUX 设置为 disabled。创建 hadoop 用户组和用户,并设置适当的权限。配置无密码登录以简化节点之间的通信。

2025-05-13 12:21:44 95

原创 spark应用

数据科学:支持数据分析与建模,利用其丰富的算法库进行分类、回归、聚类等操作。数据处理:在广告业务中进行应用分析和效果分析,在推荐系统中训练模型数据。机器学习:提供了丰富的算法库,支持分类、回归、聚类等多种算法。图计算:提供了分布式图处理框架 GraphX,支持复杂的图算法。

2025-05-13 12:19:25 89

原创 spark

兼容性:与 Hadoop 生态系统兼容,支持 HDFS、Hive 等组件,并且可以使用 YARN 和 Mesos 作为资源管理器。易用:支持多种编程语言(如 Java、Python、Scala)和丰富的 API,提供了交互式的 shell,方便调试和验证。快速:内存计算和高效的 DAG 执行引擎使得 Spark 在处理大规模数据时速度更快。通用:支持多种数据处理模型,适合批处理、实时流处理、机器学习和图计算等多种场景。

2025-05-13 12:18:54 114

原创 22222

Spark 是一个开源的大数据计算框架,提供了高效的内存计算和多种数据处理模型,适合批处理、实时流处理、机器学习和图计算等多种应用场景。

2025-05-13 12:18:23 92

原创 spark优势

速度快:基于内存计算,数据在内存中进行处理,大大提高了计算速度。同时,Spark采用了优化的计算引擎和调度策略,能够高效地处理大规模数据。- 通用性:不仅支持批处理,还支持实时流处理、机器学习、图计算等多种计算模式,适用于各种不同的应用场景。- 易用性:提供了简洁的API,支持多种编程语言,使开发人员能够轻松地进行数据处理和分析。

2025-05-13 12:16:49 110

原创 spark编程模型

Spark支持多种编程语言,如Scala、Java、Python等。# 执行行动操作,将结果收集到驱动程序。# 创建SparkSession。# 停止SparkSession。# 读取文本文件创建RDD。# 对RDD进行转换操作。

2025-05-13 12:16:12 143

原创 spark运行结构

Driver Program:是Spark应用程序的入口点,负责创建SparkContext,定义RDD操作,并将任务分发给集群中的Executor。- SparkContext:是与Spark集群的连接入口,负责初始化Spark应用程序,管理集群资源,调度任务等。- Cluster Manager:负责管理集群的资源,如YARN、Mesos等。- Executor:是在工作节点上运行的进程,负责执行任务并处理RDD数据。

2025-05-13 12:15:34 99

原创 1111111

RDD(弹性分布式数据集):是Spark中最基本的数据抽象,它代表一个不可变、可分区、分布式的数据集。- 转换(Transformation):是对RDD进行的懒操作,如map、filter、flatMap等,它们返回一个新的RDD,不会立即计算结果,只是定义了计算逻辑。- DAG(有向无环图):是Spark任务的逻辑执行计划,由一系列的RDD转换和行动操作组成。- 行动(Action):是触发RDD计算的操作,如count、collect、save等,会将计算结果返回到驱动程序或保存到外部存储。

2025-05-13 12:14:57 132

原创 inux常见操作命令

cp:复制文件或目录, cp file1 file2 复制file1为file2, cp -r dir1 dir2 复制目录。- cat:查看文件内容, cat file.txt 显示文件内容, cat file1 file2 > file3 合并文件。- rm:删除文件或目录, rm file.txt 删除文件, rm -r dir 删除目录及其内容。- ls:列出目录内容,如 ls -l 以长格式显示, ls -a 显示所有文件包括隐藏文件。

2025-03-03 19:22:06 280

原创 vi常见操作命令

%s/old/new/g 将全文的 old 替换为 new , :s/old/new/g 只替换当前行的所有 old 为 new。- 进入插入模式: i 在光标前插入, I 在行首插入, a 在光标后插入, A 在行尾插入, o 在光标下一行插入新行, O 在光标上一行插入新行。- 复制粘贴: yy 复制光标所在行, nyy 复制从光标所在行开始的 n 行, p 在光标后粘贴, P 在光标前粘贴。- 删除操作: x 删除光标所在字符, dd 删除光标所在行, ndd 删除从光标所在行开始的 n 行。

2025-03-03 19:21:16 287

原创 vm+centos虚拟机

安装CentOS:点击“开启此虚拟机”,选择安装语言,设置“root密码”,点击“系统”上的“安装目标位置”,选择标准磁盘,点击“网络和主机名”,打开“以太网”,设置好网络后点击“软件选择”,根据需求选择安装模式,点击“开始安装”,安装完成后点击“重启系统”。VMware是一款功能强大的虚拟机软件,可在一台物理计算机上创建和运行多个虚拟机,每个虚拟机都能独立运行不同的操作系统,如Windows、Linux等,方便用户进行开发、测试、学习等工作。在VMware上安装CentOS虚拟机的一般步骤。

2025-03-03 19:20:23 202

原创 虚拟机IP配置

1、创建虚拟机 首先在这里创建虚拟机,将不必要的虚拟机硬件设备移除掉,留下了这些,将网络适配器选择为NAT模式,桥接模式就自动连接自己主机的网络IP了。如何将VM虚拟机的IP设置为固定IP并与主机处于同一局域网段。首先,将虚拟机的网络连接模式设置为桥接模式,然后在虚拟机系统中修改IP地址、网关和DNS服务器地址,最后运行命令检查IP是否修改成功并测试网络连接。如何在模拟器中实现单窗口单IP,通过使用代理工具和设置进程匹配,每个虚拟机窗口都可以使用不同的网络,从而达到单窗口单IP的效果。

2025-03-03 19:18:49 359

原创 Scala基础

/scala没有break和continue关键字,采用if进行跳过,Breaks类进行跳出。//集合的遍历,i <- 集合。//util确定区间。

2024-12-21 21:34:21 363

原创 Scala基础

2. 学习Scala核心内容是为我们看Spark源码的基础,例如Scala模式匹配无论是在Spark源码中还是我们日常处理数据中都会经常用到,而这些核心知识的学习和掌握并不是那么容易。Scala是融合Java的内容又在此基础上又新增属于自己的内容,所以这门语言它的学习应该是和Java类似:入门难,而不是类似Python:入门容易精通难。3. 还有偏函数、函数柯里化、隐式转换、样例类等等都是我们需要掌握的,如果你对这些概念都清楚,说明你学的还不错。

2024-12-21 21:33:31 106

原创 Scala基础

1+2和1.+(2)是等价的,推广的话对于a.method(b)可以写为a method b,如果是多个参数的话括号不可省略,如果无参数的话则可以直接写 a method。def method(agrs*),在参数尾部加上*该参数就变为可变参数,可以从接受任意个同类型的实参。在scala中如果没有return,则返回最后一行的语句返回值。def 方法名(args:类型):返回值类型={}在scala中万物皆是方法(包括操作符)scala的方法格式。

2024-12-21 21:32:15 140

原创 Scala基础

/ 函数字面量 val addFunction: (Int, Int) => Int = (x, y) => x + y。定义: 函数是一等公民,可以独立存在,不需要依赖于类或对象。在 Scala 中,函数可以被直接定义和传递。特征: 函数是具有类型的值,可以被存储在变量中,也可以作为参数传递给其他函数。// 调用函数 val result = addFunction(3, 5)调用: 函数可以直接调用,也可以传递给其他函数。参数: 函数可以接受参数,也可以没有参数。

2024-12-21 21:31:42 99

原创 Scala基础

通过在 for 循环中使用 yield,可以将每次循环迭代的结果收集起来,形成一个新的集合。yield 的使用增加了 Scala 中函数式编程风格的灵活性,使得在处理集合时可以更加直观和表达力强。特征: 方法可以有访问修饰符(public、private 等)、返回类型,也可以包含其他语法结构,如条件语句、循环等。val range1 = 1 to 5 // 包括5 val range2 = 1 until 5 // 不包括5。Java: Java 中没有直接的范围操作符,通常使用循环来表示范围。

2024-12-21 21:31:10 283

原创 Scala基础

List(列表): 不可变链表,可以包含不同类型的元素。Array(数组): 有序集合,包含相同类型的元素。String(字符串): 由字符组成的字符串。Tuple(元组): 有序的不同类型元素的集合。Set(集合): 无序集合,不包含重复元素。Map(映射): 键值对的集合。

2024-12-21 21:30:01 146

原创 00000

Long: 64 位有符号整数,范围为 -9223372036854775808 到 9223372036854775807。Int: 32 位有符号整数,范围为 -2147483648 到 2147483647。在函数没有返回值时使用。Short: 16 位有符号整数,范围为 -32768 到 32767。Byte: 8 位有符号整数,范围为 -128 到 127。Boolean: 布尔类型,值为 true 或 false。Double: 64 位浮点数。Float: 32 位浮点数。

2024-12-21 21:29:30 133

原创 666666

scala中的方法参数,使用比较灵活。在定义方法时可以给参数定义一个默认值。

2024-12-21 21:26:31 129

原创 555555

条件表达式就是if表达式,if表达式可以根据给定的条件是否满足,根据条件的结果(真或假)决定执行对应的操作。scala条件表达式的语法和Java一样。与Java不一样的是,在scala中,没有三元表达式,可以使用if表达式替代三元表达式。在scala中,条件表达式也是有返回值的。scala中,使用{}表示一个块表达式。和if表达式一样,块表达式也是有值的。值就是最后一个表达式的值。3.4.1、条件表达式。3.4.2、块表达式。

2024-12-21 21:25:36 143

原创 444444

val range1 = 1 to 5 // 包括5 val range2 = 1 until 5 // 不包括5。Scala: Scala 提供了 Option 类型和 getOrElse 方法来处理空引用。Scala: Scala 提供了 to 和 until 操作符来表示范围。Java: Java 中没有直接的范围操作符,通常使用循环来表示范围。Scala: Scala 也有三元运算符 if-else。Java: Java 中使用条件语句来检查空引用。Java: Java 中有三元运算符?

2024-12-21 21:23:20 193

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除