2501_90941609-优快云博客

原创快速搭建Spark Standalone集群指南

在之前的学习中我们有了一个软件包 spark.3.1.2-bin-hadoop3.2.tgz （eg我的在 /opt/software目录下）把这个软件包解压到 /opt/module 下（也可以自己决定解压到哪里）。进入到hadoop100机器，切换目录到/opt/module/spark-standalone/sbin下，运行命令 ./start-all.sh。打开 /opt/module/spark-standalone/conf 中可看到修改文件内容前把 .template 后缀名都删掉再打开。

2025-05-19 08:10:16 274

原创 Yarn模式下的Spark集群搭建全攻略

对应命令为：spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster /opt/module/spark-standalone/examples/jars/spark-examples_2.12-3.1.1.jar 10。进入/opt/module/spark-yarn/sbin，运行： ./start-all.sh 和 ./start-history-server.sh。

2025-05-19 08:09:43 337

原创快速配置Spark历史服务的完整指南

快速配置Spark历史服务的完整指南

2025-05-19 08:08:56 261

原创 SparkSQL DataFrame入门指南与实战案例

sparkSQL DataFrame入门指南与实战案例

2025-05-19 08:08:16 180

原创 Spark，HDFS客户端操作今天我又学废了于 2025-04-01 23:00:00 发布阅读量294 收藏点赞数 2文章标签： spark hdfs 大数据版权hadoop

mv是linux的命令，这里的 \ 是换行输入的意思，整体的代码就只有一句，只不过太长了，我们把它拆开成几个部分来输入，其中\ 的意思就是这里写不下，写在下一行。spark的部署方式 1,spark资源调度yran模式三,Spark的开发方式 1,交互式开发 2,脚本式开发一,数据处理的方式 1,单机数据处理依赖单个计算机的资源,处理的数据量较少在单机环境下,数据处理主要依赖于单个计算机的硬件资源。如同单一磁盘的文件系统中的文件,HDFS中的文件被分解成数据块大小的若干数据块,独立保存在各单元。

2025-05-13 15:34:49 258

原创 Spark，序列化反序列化今天我又学废了于 2025-04-15 07:00:00 发布阅读量116 收藏点赞数 1文章标签： spark 大数据分布式版权序列化反序列化的定

更难能可贵的是,作者不仅深入浅出地阐述了这一领域的核心概念,还贯穿了大量的实例和案例分析,使得抽象的理论和现实生活紧密相连,让人受益匪浅。// 2. 使用ObjectInputStream对象中的readObject方法，读取文件中的对象。序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。常用的Java的数据类型与Hadoop的序列化的类型对比。

2025-05-13 15:32:23 248

原创 park，流量统计案例今天我又学废了于 2025-04-08 16:03:31 发布阅读量212 收藏点赞数 2文章标签： spark 大数据分布式版权拥有一个文件，其中文件

/三个属性：手机号，上行流量，下行流量。数据： +---+-------------------+-------------------+----+ | id| startTime| endTime|flow| +---+-------------------+-------------------+----+ | 1|2020-02-18 14:20:30|2020-02-18 14:46:30| 20| | 1|2020-02-18 14:47:20|2020-02-18 15:20:30|

2025-05-13 15:31:49 324

原创一）创建文件夹这一小结，我们来通过hadoop的相关api，实现通过代码的方式去创建文件夹。我们的目标是：在根目录下去创建一个名为maven的文件夹。要用到的api是fs.mkdirs。核心

客户端操作HDFS 1、使用shell命令 -help 功能：输出这个命令参数手册 -ls 功能：显示目录信息示例： hadoop fs -ls hdfs://hadoop-server01:9000/ 备注：这些参数中，所有的hdfs路径都可以简写 –>hadoop fs -ls / 等同于上一条命令的效果 -mkdir 功能：在hdfs上创建目录示例：hadoop fs -mk...RPC（远程过程调用）是分布式系统中不同节点间通信的方式，此处的错误表明在客户端和服务器之间的身份验证...

2025-05-13 15:31:17 561

原创今天我又学废了已关注———————————————— 版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，

2025-05-13 15:30:37 110

原创从单机到实时大数据：技术演进全解析

特点：提高处理能力：通过将任务分散到多个节点上并行计算，能够大大提高数据处理的速度和效率，从而可以在短时间内处理海量数据，满足大数据时代对数据处理的实时性和高效性要求。例如早期的个人电脑，通常只有几百兆的内存和几 GB 的硬盘空间。2.可靠性和可用性较低：一旦单机出现故障，整个系统就会瘫痪，导致业务中断，数据也可能丢失，没有冗余机制来保证数据的安全和业务的连续性。1.无法处理大规模数据：随着业务的发展和数据量的增长，单机系统很快就会遇到存储和处理能力的瓶颈，无法应对海量数据的存储和分析需求。

2025-05-13 15:29:41 216

原创 yum配置 Yum是一个linux工具，用来从网络上下载安装软件到CentOS操作系统中。先要确保虚拟机的网络是通畅的。（1）查看源 yum中的源是指它从哪里去下载

把yum想象成你自己开的一家商场，那么yum的源就是你的供货商。（如果显示源信息是mirrorlist.centos.org（默认源），那就不能使用了。这个源已经失效了，就是你的默认供货商跑路了！Extra Packages for Enterprise Linux是为“红帽系”的操作系统提供额外的软件包，适用于RHEL、CentOS和Scientific Linux。网络上的免费而稳定的源有很多，这里我们选择阿里云的源。具体的操作是打开/etc/hostname这个文件，并修改其中的内容。

2025-05-13 15:29:10 440

原创一、克隆具体步骤如下：（1）关闭hadoop100这台虚拟机。注：克隆一定是在主机关机的情况下才能对其进行克隆（2）在它身上右键，并选择管理 → 克隆命令在设

要注意，这里是虚拟机的名称，而不是它的hostname。（2）要将这两台克隆出来的虚拟机和hadoop100保存在同一个磁盘目录下，方便我们统一管理。克隆之后，我们得到了hadoop002,hadoop003，由于它们是从hadoop001直接扣克隆过来的，所以目前他们的ip和hostname都是很hadoop100是一样的，这里就需要修改下。linux中，ip地址是写在配置文件（/etc/sysconfig/network-scripts/ifcfg-ens33）中，这里使用 vi 编辑器去修改即可！

2025-05-13 15:28:24 279

原创揭秘Hadoop核心组件：MapReduce、Yarn与HDFS

（1）NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等。每个框都是一个进程，可能都运行在一台主机上，但是，属于不同的集群。对普通用户来说， Hadoop就是一个东西，一个整体，它能给我们提供无限的磁盘用来保存文件，可以使用提供强大的计算能力。在Hadoop3.X中，hadoop一共有三个组成部分：MapReduce，Yarn，HDFS。Yarn和HDFS的关系说明：逻辑上分离，物理上在一起。

2025-05-13 15:27:46 261

原创、停止任务进入/opt/module/spark-standalone/sbin，运行命令：./stop-all.sh二、修改配置进入 /opt/module/spark-standal

进入 /opt/module/spark-standalone/conf/spark-default.conf.temple 先把名称改成spark-default.conf，再补充两个设置。启动hadoop的hdfs服务（start-dfs.sh）,并在根目录创建目录directory。原文链接：https://blog.youkuaiyun.com/2402_87076376/article/details/147615313。命令是 ./start-history-server.sh。六、重启spark集群。

2025-05-13 15:27:03 154

原创 IDEA中快速上手Spark编程指南

IDEA中，默认是不支持编写Scala的，需要额外配置一个插件。前面我们搭建好三种不同的集群，但是还没有开始学习Spark的核心内容，接下来，我们会使用Idea编辑器来写代码运行Spark程序，为我们后续的学习打好基础。命令为：[root@hadoop100 sbin]# spark-submit --class WordCount_online --master yarn /opt/module/original-untitled-1.0-SNAPSHOT.jar /wcinput /output1。

2025-05-13 15:26:30 834

原创的三大组成： 1. HDFS：存储。文件上传

例如，Hive可以将数据存储在HDFS中，Spark可以作为Hive的执行引擎，通过Spark SQL来执行Hive的SQL查询，从而提高查询性能。mv是linux的命令，这里的 \ 是换行输入的意思，整体的代码就只有一句，只不过太长了，我们把它拆开成几个部分来输入，其中\ 的意思就是这里写不下，写在下一行。// 收集RDD的数据并打印输出结果。在处理过程中，我们需要加载这个文件，然后通过某种算法或规则（例如，根据IP地址的前几位来确定省份）来解析`ip.txt`中的每个IP地址，找出它们对应的省份。

2025-05-13 15:25:36 656

原创揭秘RDD行动算子：collect、reduce、foreach全解析

揭秘RDD行动算子：collect、reduce、foreach全解析

2025-05-13 15:23:58 90

原创深入解析RDD行动算子：collect、reduce与foreach

深入解析RDD行动算子：collect、reduce与foreach

2025-05-13 15:23:13 191

原创 Hadoop流量分析：从FlowBean到FlowDriver

Hadoop流量分析：从FlowBean到FlowDriver

2025-05-12 11:26:54 406

原创一、maven打包1.maven打包MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代

原文链接：https://blog.youkuaiyun.com/2402_87076376/article/details/147305395。DEFLATE 是，直接使用 DEFLATE .deflate 否和文本处理一样，不需要修改。Snappy 是，直接使用 Snappy .snappy 否和文本处理一样，不需要修改。bzip2 是，直接使用 bzip2 .bz2 是和文本处理一样，不需要修改。

2025-05-12 11:26:13 240

原创压缩技术：优化存储与性能的平衡之道

压缩技术：优化存储与性能的平衡之道

2025-05-12 11:25:27 422

原创快速搭建Spark Standalone集群指南

在之前的学习中我们有了一个软件包 spark.3.1.2-bin-hadoop3.2.tgz （eg我的在 /opt/software目录下）把这个软件包解压到 /opt/module 下（也可以自己决定解压到哪里）。进入到hadoop100机器，切换目录到/opt/module/spark-standalone/sbin下，运行命令 ./start-all.sh。打开 /opt/module/spark-standalone/conf 中可看到修改文件内容前把 .template 后缀名都删掉再打开。

2025-05-12 11:24:42 365

原创快速配置Spark历史服务全攻略

快速配置Spark历史服务全攻略

2025-05-12 11:24:01 156

原创 DEA中快速搭建Spark Scala开发环境

DEA中快速搭建Spark Scala开发环境

2025-05-12 11:23:17 297

原创 Idea中高效编写Spark程序指南

Idea中高效编写Spark程序指南

2025-05-12 11:22:30 389

原创 adDD算子实战：数字处理与词频统计

DD算子实战：数字处理与词频统计

2025-05-12 11:21:27 201

原创虚拟机的指令2

查看home目录下的所有的文件的文件名 ls /home。Java虚拟机的指令由一个字节长度的、代表着某种特定操作含义的操作码（Opcode）以及跟随其后的零至多个代表此操作所需参数的操作数（Operands）所构成。一、打开指令面板，输入相关指令切换目录： cd usr/ 切换到该目录下usr目录 cd ../ 切换到上一层目录 cd / 切换到系统根目录 cd ~ 切换到用户主目录目录的操作命令（增删改查） 1、增加目录操作（增）命令：mkdir 目录名称首先打开虚拟机的命令窗口 2、查...

2025-03-03 19:51:33 332

2501_90941609的博客

原创快速搭建Spark Standalone集群指南

原创 Yarn模式下的Spark集群搭建全攻略

原创快速配置Spark历史服务的完整指南

原创 SparkSQL DataFrame入门指南与实战案例

原创 Spark，HDFS客户端操作今天我又学废了于 2025-04-01 23:00:00 发布阅读量294 收藏点赞数 2文章标签： spark hdfs 大数据版权hadoop

原创 Spark，序列化反序列化今天我又学废了于 2025-04-15 07:00:00 发布阅读量116 收藏点赞数 1文章标签： spark 大数据分布式版权序列化反序列化的定

原创 park，流量统计案例今天我又学废了于 2025-04-08 16:03:31 发布阅读量212 收藏点赞数 2文章标签： spark 大数据分布式版权拥有一个文件，其中文件

原创一）创建文件夹这一小结，我们来通过hadoop的相关api，实现通过代码的方式去创建文件夹。我们的目标是：在根目录下去创建一个名为maven的文件夹。要用到的api是fs.mkdirs。核心

原创今天我又学废了已关注———————————————— 版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，

原创从单机到实时大数据：技术演进全解析

原创 yum配置 Yum是一个linux工具，用来从网络上下载安装软件到CentOS操作系统中。先要确保虚拟机的网络是通畅的。（1）查看源 yum中的源是指它从哪里去下载

原创一、克隆具体步骤如下：（1）关闭hadoop100这台虚拟机。注：克隆一定是在主机关机的情况下才能对其进行克隆（2）在它身上右键，并选择管理 → 克隆命令在设

原创揭秘Hadoop核心组件：MapReduce、Yarn与HDFS

原创、停止任务进入/opt/module/spark-standalone/sbin，运行命令：./stop-all.sh二、修改配置进入 /opt/module/spark-standal

原创 IDEA中快速上手Spark编程指南

原创的三大组成： 1. HDFS：存储。文件上传

原创揭秘RDD行动算子：collect、reduce、foreach全解析

原创深入解析RDD行动算子：collect、reduce与foreach

原创 Hadoop流量分析：从FlowBean到FlowDriver

原创一、maven打包1.maven打包MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代

原创压缩技术：优化存储与性能的平衡之道

原创快速搭建Spark Standalone集群指南

原创快速配置Spark历史服务全攻略

原创 DEA中快速搭建Spark Scala开发环境

原创 Idea中高效编写Spark程序指南

原创 adDD算子实战：数字处理与词频统计

原创虚拟机的指令2

原创虚拟机的编辑器

原创安装VM和centos

原创虚拟机ip配置

空空如也

Spark是什么东西呀