rylshe1314-优快云博客

原创在scala中sparkSQL读入csv文件

在 Scala 中使用 Spark SQL 读取 CSV 文件并写入 MySQL 数据库是一个常见的数据处理任务。

2025-05-13 09:06:24 577

原创在scala中sparkSQL连接mysql并添加新数据

通过以上步骤，你可以轻松地将数据从Spark写入MySQL数据库。确保已安装Apache Spark和MySQL。下载并添加MySQL JDBC驱动到Spark的。如果使用Maven项目，可以在。创建一个包含新数据的。

2025-05-13 08:57:31 296

原创 hadoop中创建MySQL新数据库数据表

在Hadoop环境中创建MySQL数据库和数据表，通常需要通过MySQL命令行工具来完成，而不是直接在Hadoop中操作。

2025-05-13 08:50:24 468

配置连接MySQL的JDBC属性，包括数据库URL、用户名、密码等。：确保已经安装了Apache Spark，并配置好环境变量。：在生产环境中，建议使用数据库连接池来提高性能和可扩展性。：安装MySQL数据库，并创建好需要操作的数据库和表。：在使用JDBC连接时，要确保正确处理可能出现的异常。：如果MySQL数据库使用了SSL加密，需要在。对象，这是使用Spark进行数据处理的基础。对读取到的数据进行处理，例如过滤、聚合等。将处理后的数据写回到MySQL数据库中。），并将其放置到Spark的。

2025-05-13 08:38:24 373

原创 spark sql基本操作

Spark SQL 是 Apache Spark 的一个模块，用于处理结构化数据。它允许用户使用标准的 SQL 语法来查询数据，并且可以无缝地与 Spark 的其他功能（如 DataFrame、Dataset 和 RDD）结合使用。以下是 Spark SQL 的基本使用方法和一些常见操作的介绍。

2025-05-13 08:34:37 504

原创 sparkrdd分区器

在Spark中，RDD分区器是用于控制RDD数据如何在集群中分布和组织的关键组件。分区器的作用是将数据划分为多个分区，以便Spark能够高效地并行处理数据，同时减少数据传输开销。

2025-05-13 08:28:58 434

原创转换算子和行动算子的区别

操作不会马上执行，而是在后续遇到行动算子时才会真正处理数据。转换操作的执行，并把结果返回到驱动程序。

2025-05-07 15:51:31 222

原创如何在idea中写spark程序

如果一切配置正确，程序将执行 WordCount 任务，并将结果保存到指定的输出路径。下载并安装 IntelliJ IDEA（推荐使用 Community 版本，对于大多数 Spark 开发需求已经足够）。如果需要使用其他 Spark 组件（如 Spark Streaming、MLlib 等），请在。如果使用集群运行，确保集群的 Spark 和 Hadoop 版本与项目依赖一致。确保本地环境（如 Java、Scala、Maven）已正确安装并配置。在弹出的运行配置窗口中，确保。）、项目位置等信息，点击。

2025-04-28 19:57:28 1369

原创如何搭建spark yarn模式的集群

推荐使用 CentOS、Ubuntu 等 Linux 发行版。：确保集群中各节点网络互通，主机名和 IP 地址已正确配置。：将 Hadoop 解压到指定目录，例如。将主节点的 Spark 安装目录（例如。：安装 JDK 1.8 或以上版本。下载预编译好的 Spark 安装包。确保所有节点的环境变量一致，修改。文件，添加所有从节点的主机名。下载合适版本的 Hadoop。文件，配置 HDFS。文件，配置 YARN。修改 Hadoop 的。文件分发到所有节点。

2025-04-28 19:53:10 926

原创 spark-local模式

这里使用单机模式快运行第一个Spark程序，让大家有个基本的印象。在安装Spark时，它就提供了一些示例程序，我们可以直接来调用。进入到spark-local，运行命令spark-submit命令。4.重命名，把解压后的文件夹改成spark-local。因为后续我们还会使用其他的配置方式，所以这里先重命名一次。安装Spark的过程就是下载和解压的过程。接下来的操作，我们把它上传到集群中的节点，并解压运行。1.打开etc/profile.d/my_env.sh文件中，补充设置spark的环境变量。

2025-04-22 09:35:48 189

原创 spark和hadoop之间的对比和联系

RDD具有血统机制（lineage），当某个节点的数据丢失时，可以通过重新计算丢失数据的血统来恢复数据，从而保证计算任务的正常进行。例如，在一个数据处理任务中，数据首先存储在HDFS上，Spark可以读取HDFS中的数据进行处理，处理后的结果也可以写回到HDFS。在大数据时代，数据量呈爆炸式增长，无论是Hadoop还是Spark，它们的出现都是为了解决传统数据处理系统（如关系型数据库）在面对海量数据时的性能瓶颈问题，满足企业对大规模数据存储、处理和分析的需求。◦ Spark：Spark的运维相对简单。

2025-04-22 08:18:57 418

原创如何配置hadoop环境变量

下载配置JAVA_HOME并检查是否成功配置HADOOP_HOME，环境变量path添加%HADOOP_HOME%\bin。首先下载hadoop2.7.1和hadooponwindows-master.zip。

2025-04-15 08:11:29 122

原创如何进行流量统计

再去提交job和进行关联mapper和reducer进行汇总设置输出类型路径。进行运行生成一个output目录 part-r-00000中则会生成结果。先创建一个目录并列出统计的三个元素，手机号，上行流量，下行流量。将手机号的上行流量与下行流量进行汇总计算数据。再继承Reducer，并重写reduce函数。再对多个元素进行封装，hadoop序列化。再继承mapper重写map函数。

2025-04-09 15:40:20 280

原创如何实现java序列化

【代码】如何实现java序列化。

2025-04-08 11:22:26 119

原创如何数据清洗

/ 3. 关联Mapper和Reducer。// 获取一行数据，用空格拆分为一个个单词。// 1. 获取配置信息以及获取job对象。// 4. 设置Mapper输出的KV类型。// 对 values中的值进行累加求和。// 遍历单词，设置键值对，值为1。// 5. 设置最终输出KV类型。// mapreduce的Driver。// 2. 关联本地的jar。// 继承 reducer类。// 继承Mapper。

2025-04-02 15:36:35 141

原创 mapreduce的工作原理

MapReduce 是一种分布式计算模型，主要用于处理大规模数据集。它通过将任务分解为两个主要阶段：Map（映射）阶段和 Reduce（归并）阶段，来实现高效的数据处理。

2025-03-31 19:45:28 741

原创 Hadoop集群的常用命令

此命令能显示当前在 YARN 集群上运行的所有应用程序。是包含 MapReduce 程序的 JAR 文件路径，此命令可列出 HDFS 根目录下的所有文件和目录。该命令会列出 YARN 集群中所有节点的状态信息。此命令会运行一个 MapReduce 作业，其中。该命令会在 HDFS 根目录下创建一个名为。此命令可递归删除 HDFS 上的。是要终止的应用程序的 ID。文件上传到 HDFS 的。该命令会将 HDFS 上的。目录及其所有子目录和文件。分别是输入和输出路径。

2025-03-31 19:40:46 266

原创使用xsync脚本同步文件

保存后读取一下文件再打开脚本如果权限不够输入命令chmod +x /root/bin/xsync再次读取会发现文件变为绿色打开后在hadoop100中conf文件夹下创建6.txt并输入指令 xsync /opt/conf/在root文件夹中创建bin文件夹在其中创建文件xsync并打开文件输入。#6. 获取当前文件的名称。它会让你输入俩次密码，代码完成后会发现文件全部同步了。#4. 判断文件是否存在。#3. 遍历所有目录，挨个发送。#2. 遍历集群所有机器。#1. 判断参数个数。

2025-03-12 15:47:06 402

原创如何同步虚拟机文件夹

先进入hadoop100虚拟机中opt文件夹下创建conf文件夹并在其中创建四个文本文件并输入命令rsync -av conf/ root@hadoop101:/opt/conf就能将conf文件夹同步到hadoop101opt文件夹中。

2025-03-12 15:34:53 137

原创如何将两台虚拟机进行搭桥

进入hadoop101虚拟机输入命令scp -r root@hadoop100:/opt/modules/jdk1.8.0_212 root@hadoop102:/opt/modules/输入yes并输入密码就能完成搭桥。

2025-03-11 11:17:33 107

原创如何使用scp命令拉取其他虚拟机中的文件

输入命令scp -r root@hadoop100:/opt/modules/hadoop-3.1.3 /opt/modules。之后yes并输入密码就能抓取文件hadoop100文件到终点的文件了。在opt文件夹中创建modules。

2025-03-11 10:58:39 165

原创如何使用scp命令拷贝hadoop100中的文件到其他虚拟机中

输入命令scp -r jdk1.8.0_212/ root@hadoop101:/opt/module。启动俩个虚拟机，在有原文件的那个虚拟机中输入命令cd/opt/module来到module中。回车后输入密码回车进入要拷贝的那个虚拟机中再刷新一下文件夹。在新的虚拟机的opt文件夹中创建文件夹module。

2025-03-11 10:21:46 139

原创运行一个hadoop程序

在hadoop文件夹下创建wcinput文件夹，在文件夹下创建俩个文本文件 word1.txt，word2.txt文件。并刷新会出现一个文件夹wcoutput，进入后一个38b左右大小的文件中计数俩个文件中出现的数量。回到hadoop目录下opt/module/hadoop-3.1.3运行命令。分别编辑word1.txt和word2.txt文件内容。

2025-03-11 10:06:11 296

原创如何在虚拟机上安装hadoop

与前面java的方式相同安装好hadoop后进入hadoop的环境变量my_env.sh。再输入hadoop测试是否安装成功。

2025-03-11 09:55:13 177

原创在虚拟机上安装javajdk

1在opt文件里创建文件夹software并上传压缩包并创建module文件夹。3解压完成后打开etc/profile.d新建my_eny.sh配置环境变量。打开虚拟机后把javajdk文件上传到服务器上，解压文件并配置环境变量。4测试是否成功安装运行java命令java -version。2确认上传成功后，运行命令tar -zxvf。-C /opt/module/进行解压。#JAVA_HOME #是注释。

2025-03-11 09:50:50 257

原创 yum的使用

yum repolist 就可以查看默认源，再配置源sudo curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo（这里是阿里云）它其实是覆盖了centos-base.repo这个文件。（yum 修改阿里云）打开虚拟机后输入命令安装插件。

2025-03-04 09:38:23 491

原创配置hosts

在文件里添加192.168.10.100 hadoop100（ip地址和主机之间要有空格）并保存使用finalshell连接主机。在c盘中打开windows/system32/drivers/etc/hosts。127.0.0.1 douyin.com 就可以让抖音无法使用。

2025-03-04 09:34:26 294

原创虚拟网络IP设置

打开虚拟机mv编辑选项，打开虚拟网络编辑器，点击vmnet8，修改子网为192.168.10.0，再nat设置修改网关为192.168.10.2。打开控制面板网络连接右击vmnet8属性找到ipv4修改地址和网关地址为192.168.10.1，默认网关为192.168.10.2。BOOTPROTO修改为=static并在末尾添加ONBOOT=yes。检查ping能否通网 ping www.baidu.com。进入虚拟机修改对应ip，修改配置文件。

2025-02-26 15:26:45 233 1

原创 vi编辑器的模式与操作以及tar命令的使用

tar用于压缩和解压文件 tar -cvf test.tar 1.txt 2.txt 3.txt将多个文件压缩，tar -xvf test.tar -C./temp。yy复制当前行nyy复制光标后n行，p粘贴内容到光标后，P粘贴内容到下一行，dd删除当前行，ndd删除光标后n行，u撤销上一次操作，ctrl+r重做上一步。末行模式：进入，插入模式aio进入，命令模式esc进入。w保存q退出wq保存退出wq！shift+zz快速保存退出。

2025-02-25 11:24:05 118

原创 VMware的linux常见命令

删除文件或目录-f无需用户确认-r删除目录-rf删除目录无需用户确认 -rf/*删除所有目录。ls -l详细列表 -a显示所有文件包括隐藏的-lh人类可读的方式（多了k）：创建目录，-p如果父级目录不存在就创建父级目录。cd bin到bin目录。：移动或重命名文件或目录。tab键，实现自动补齐。touch创建请空文件。

2025-02-19 15:57:50 113 1

原创如何在vmware安装虚拟机并设置密码

打开虚拟机后enter选择要安装的操作系统，等待安装完成以后选择要使用的语言，设置完磁盘的存储设置，选择自动分配分区，完成后会出现完成的ui点击完成设置root密码，输入密码，然后确认密码后点击完成，等待安装完后，输入root再输入密码就能完成问题了。安装完vmware后点击创建虚拟机，自定义设置设置完虚拟机的内存硬盘大小以及处理器设置，选择光盘映像文件，自定义虚拟机的名称，选中linux系统。

2025-02-18 11:40:54 323