自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 收藏
  • 关注

原创 在scala中sparkSQL读入csv文件

在 Scala 中使用 Spark SQL 读取 CSV 文件并写入 MySQL 数据库是一个常见的数据处理任务。

2025-05-13 09:06:24 577

原创 在scala中sparkSQL连接mysql并添加新数据

通过以上步骤,你可以轻松地将数据从Spark写入MySQL数据库。确保已安装Apache Spark和MySQL。下载并添加MySQL JDBC驱动到Spark的。如果使用Maven项目,可以在。创建一个包含新数据的。

2025-05-13 08:57:31 296

原创 hadoop中创建MySQL新数据库数据表

在Hadoop环境中创建MySQL数据库和数据表,通常需要通过MySQL命令行工具来完成,而不是直接在Hadoop中操作。

2025-05-13 08:50:24 468

原创 spark MySQL数据库配置

配置连接MySQL的JDBC属性,包括数据库URL、用户名、密码等。:确保已经安装了Apache Spark,并配置好环境变量。:在生产环境中,建议使用数据库连接池来提高性能和可扩展性。:安装MySQL数据库,并创建好需要操作的数据库和表。:在使用JDBC连接时,要确保正确处理可能出现的异常。:如果MySQL数据库使用了SSL加密,需要在。对象,这是使用Spark进行数据处理的基础。对读取到的数据进行处理,例如过滤、聚合等。将处理后的数据写回到MySQL数据库中。),并将其放置到Spark的。

2025-05-13 08:38:24 373

原创 spark sql基本操作

Spark SQL 是 Apache Spark 的一个模块,用于处理结构化数据。它允许用户使用标准的 SQL 语法来查询数据,并且可以无缝地与 Spark 的其他功能(如 DataFrame、Dataset 和 RDD)结合使用。以下是 Spark SQL 的基本使用方法和一些常见操作的介绍。

2025-05-13 08:34:37 504

原创 sparkrdd分区器

在Spark中,RDD分区器是用于控制RDD数据如何在集群中分布和组织的关键组件。分区器的作用是将数据划分为多个分区,以便Spark能够高效地并行处理数据,同时减少数据传输开销。

2025-05-13 08:28:58 434

原创 转换算子和行动算子的区别

操作不会马上执行,而是在后续遇到行动算子时才会真正处理数据。转换操作的执行,并把结果返回到驱动程序。

2025-05-07 15:51:31 222

原创 如何在idea中写spark程序

如果一切配置正确,程序将执行 WordCount 任务,并将结果保存到指定的输出路径。下载并安装 IntelliJ IDEA(推荐使用 Community 版本,对于大多数 Spark 开发需求已经足够)。如果需要使用其他 Spark 组件(如 Spark Streaming、MLlib 等),请在。如果使用集群运行,确保集群的 Spark 和 Hadoop 版本与项目依赖一致。确保本地环境(如 Java、Scala、Maven)已正确安装并配置。在弹出的运行配置窗口中,确保。)、项目位置等信息,点击。

2025-04-28 19:57:28 1369

原创 如何搭建spark yarn模式的集群

推荐使用 CentOS、Ubuntu 等 Linux 发行版。:确保集群中各节点网络互通,主机名和 IP 地址已正确配置。:将 Hadoop 解压到指定目录,例如。将主节点的 Spark 安装目录(例如。:安装 JDK 1.8 或以上版本。下载预编译好的 Spark 安装包。确保所有节点的环境变量一致,修改。文件,添加所有从节点的主机名。下载合适版本的 Hadoop。文件,配置 HDFS。文件,配置 YARN。修改 Hadoop 的。文件分发到所有节点。

2025-04-28 19:53:10 926

原创 spark-local模式

这里使用单机模式快运行第一个Spark程序,让大家有个基本的印象。在安装Spark时,它就提供了一些示例程序,我们可以直接来调用。进入到spark-local,运行命令spark-submit命令。4.重命名,把解压后的文件夹改成spark-local。因为后续我们还会使用其他的配置方式,所以这里先重命名一次。安装Spark的过程就是下载和解压的过程。接下来的操作,我们把它上传到集群中的节点,并解压运行。1.打开etc/profile.d/my_env.sh文件中,补充设置spark的环境变量。

2025-04-22 09:35:48 189

原创 spark和hadoop之间的对比和联系

RDD具有血统机制(lineage),当某个节点的数据丢失时,可以通过重新计算丢失数据的血统来恢复数据,从而保证计算任务的正常进行。例如,在一个数据处理任务中,数据首先存储在HDFS上,Spark可以读取HDFS中的数据进行处理,处理后的结果也可以写回到HDFS。在大数据时代,数据量呈爆炸式增长,无论是Hadoop还是Spark,它们的出现都是为了解决传统数据处理系统(如关系型数据库)在面对海量数据时的性能瓶颈问题,满足企业对大规模数据存储、处理和分析的需求。◦ Spark:Spark的运维相对简单。

2025-04-22 08:18:57 418

原创 如何配置hadoop环境变量

下载配置JAVA_HOME并检查是否成功配置HADOOP_HOME,环境变量path添加%HADOOP_HOME%\bin。首先下载hadoop2.7.1和hadooponwindows-master.zip。

2025-04-15 08:11:29 122

原创 如何进行流量统计

再去提交job和进行关联mapper和reducer进行汇总设置输出类型路径。进行运行生成一个output目录 part-r-00000中则会生成结果。先创建一个目录并列出统计的三个元素,手机号,上行流量,下行流量。将手机号的上行流量与下行流量进行汇总计算数据。再继承Reducer,并重写reduce函数。再对多个元素进行封装,hadoop序列化。再继承mapper重写map函数。

2025-04-09 15:40:20 280

原创 如何实现java序列化

【代码】如何实现java序列化。

2025-04-08 11:22:26 119

原创 如何数据清洗

/ 3. 关联Mapper和Reducer。// 获取一行数据,用空格拆分为一个个单词。// 1. 获取配置信息以及获取job对象。// 4. 设置Mapper输出的KV类型。// 对 values中的值进行累加求和。// 遍历单词,设置键值对,值为1。// 5. 设置最终输出KV类型。// mapreduce的Driver。// 2. 关联本地的jar。// 继承 reducer类。// 继承Mapper。

2025-04-02 15:36:35 141

原创 mapreduce的工作原理

MapReduce 是一种分布式计算模型,主要用于处理大规模数据集。它通过将任务分解为两个主要阶段:Map(映射)阶段和 Reduce(归并)阶段,来实现高效的数据处理。

2025-03-31 19:45:28 741

原创 Hadoop集群的常用命令

此命令能显示当前在 YARN 集群上运行的所有应用程序。是包含 MapReduce 程序的 JAR 文件路径,此命令可列出 HDFS 根目录下的所有文件和目录。该命令会列出 YARN 集群中所有节点的状态信息。此命令会运行一个 MapReduce 作业,其中。该命令会在 HDFS 根目录下创建一个名为。此命令可递归删除 HDFS 上的。是要终止的应用程序的 ID。文件上传到 HDFS 的。该命令会将 HDFS 上的。目录及其所有子目录和文件。分别是输入和输出路径。

2025-03-31 19:40:46 266

原创 使用xsync脚本同步文件

保存后读取一下文件再打开脚本如果权限不够输入命令chmod +x /root/bin/xsync再次读取会发现文件变为绿色打开后在hadoop100中conf文件夹下创建6.txt并输入指令 xsync /opt/conf/在root文件夹中创建bin文件夹在其中创建文件xsync并打开文件输入。#6. 获取当前文件的名称。它会让你输入俩次密码,代码完成后会发现文件全部同步了。#4. 判断文件是否存在。#3. 遍历所有目录,挨个发送。#2. 遍历集群所有机器。#1. 判断参数个数。

2025-03-12 15:47:06 402

原创 如何同步虚拟机文件夹

先进入hadoop100虚拟机中opt文件夹下创建conf文件夹并在其中创建四个文本文件并输入命令rsync -av conf/ root@hadoop101:/opt/conf就能将conf文件夹同步到hadoop101opt文件夹中。

2025-03-12 15:34:53 137

原创 如何将两台虚拟机进行搭桥

进入hadoop101虚拟机输入命令scp -r root@hadoop100:/opt/modules/jdk1.8.0_212 root@hadoop102:/opt/modules/输入yes并输入密码就能完成搭桥。

2025-03-11 11:17:33 107

原创 如何使用scp命令拉取其他虚拟机中的文件

输入命令scp -r root@hadoop100:/opt/modules/hadoop-3.1.3 /opt/modules。之后yes并输入密码就能抓取文件hadoop100文件到终点的文件了。在opt文件夹中创建modules。

2025-03-11 10:58:39 165

原创 如何使用scp命令拷贝hadoop100中的文件到其他虚拟机中

输入命令scp -r jdk1.8.0_212/ root@hadoop101:/opt/module。启动俩个虚拟机,在有原文件的那个虚拟机中输入命令cd/opt/module来到module中。回车后输入密码回车进入要拷贝的那个虚拟机中再刷新一下文件夹。在新的虚拟机的opt文件夹中创建文件夹module。

2025-03-11 10:21:46 139

原创 运行一个hadoop程序

在hadoop文件夹下创建wcinput文件夹,在文件夹下创建俩个文本文件 word1.txt,word2.txt文件。并刷新会出现一个文件夹wcoutput,进入后一个38b左右大小的文件中计数俩个文件中出现的数量。回到hadoop目录下opt/module/hadoop-3.1.3运行命令。分别编辑word1.txt和word2.txt文件内容。

2025-03-11 10:06:11 296

原创 如何在虚拟机上安装hadoop

与前面java的方式相同安装好hadoop后进入hadoop的环境变量my_env.sh。再输入hadoop测试是否安装成功。

2025-03-11 09:55:13 177

原创 在虚拟机上安装javajdk

1在opt文件里创建文件夹software并上传压缩包并创建module文件夹。3解压完成后打开etc/profile.d新建my_eny.sh配置环境变量。打开虚拟机后把javajdk文件上传到服务器上,解压文件并配置环境变量。4测试是否成功安装运行java命令java -version。2确认上传成功后,运行命令tar -zxvf。-C /opt/module/进行解压。#JAVA_HOME #是注释。

2025-03-11 09:50:50 257

原创 yum的使用

yum repolist 就可以查看默认源,再配置源sudo curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo(这里是阿里云)它其实是覆盖了centos-base.repo这个文件。(yum 修改阿里云)打开虚拟机后输入命令安装插件。

2025-03-04 09:38:23 491

原创 配置hosts

在文件里添加192.168.10.100 hadoop100(ip地址和主机之间要有空格)并保存使用finalshell连接主机。在c盘中打开windows/system32/drivers/etc/hosts。127.0.0.1 douyin.com 就可以让抖音无法使用。

2025-03-04 09:34:26 294

原创 虚拟网络IP设置

打开虚拟机mv编辑选项,打开虚拟网络编辑器,点击vmnet8,修改子网为192.168.10.0,再nat设置修改网关为192.168.10.2。打开控制面板网络连接右击vmnet8属性找到ipv4修改地址和网关地址为192.168.10.1,默认网关为192.168.10.2。BOOTPROTO修改为=static并在末尾添加ONBOOT=yes。检查ping能否通网 ping www.baidu.com。进入虚拟机修改对应ip,修改配置文件。

2025-02-26 15:26:45 233 1

原创 vi编辑器的模式与操作以及tar命令的使用

tar用于压缩和解压文件 tar -cvf test.tar 1.txt 2.txt 3.txt将多个文件压缩,tar -xvf test.tar -C./temp。yy复制当前行nyy复制光标后n行,p粘贴内容到光标后,P粘贴内容到下一行,dd删除当前行,ndd删除光标后n行,u撤销上一次操作,ctrl+r重做上一步。末行模式:进入 , 插入模式aio进入 ,命令模式esc进入。w保存q退出wq保存退出wq!shift+zz快速保存退出。

2025-02-25 11:24:05 118

原创 VMware的linux常见命令

删除文件或目录-f无需用户确认-r删除目录-rf删除目录无需用户确认 -rf/*删除所有目录。ls -l详细列表 -a显示所有文件包括隐藏的-lh人类可读的方式(多了k):创建目录,-p如果父级目录不存在就创建父级目录。cd bin到bin目录。:移动或重命名文件或目录。tab键,实现自动补齐。touch创建请空文件。

2025-02-19 15:57:50 113 1

原创 如何在vmware安装虚拟机并设置密码

打开虚拟机后enter选择要安装的操作系统,等待安装完成以后选择要使用的语言,设置完磁盘的存储设置,选择自动分配分区,完成后会出现完成的ui点击完成设置root密码,输入密码,然后确认密码后点击完成,等待安装完后,输入root再输入密码就能完成问题了。安装完vmware后点击创建虚拟机,自定义设置设置完虚拟机的内存硬盘大小以及处理器设置,选择光盘映像文件,自定义虚拟机的名称,选中linux系统。

2025-02-18 11:40:54 323

原创 泛型的使用方法

【代码】泛型的使用方法。

2024-12-11 17:08:03 116

原创 隐式对象的作用

【代码】隐式对象的作用。

2024-12-11 16:38:40 143

原创 隐式对象作用域代码写在包对象

【代码】隐式对象作用域代码写在包对象。

2024-12-11 16:02:45 128

原创 隐式类的代码

【代码】隐式类的代码。

2024-12-11 15:04:14 146

原创 隐式参数解决默认值不能修改的问题

【代码】隐式参数解决默认值不能修改的问题。

2024-12-11 14:46:52 404

原创 隐式转换的隐式函数参数类型

【代码】隐式转换的隐式函数参数类型。

2024-12-09 16:59:13 121

原创 隐式转换的例子

【代码】隐式转换的例子。

2024-12-09 15:59:44 131

原创 正则表达式的分组替换的操作

【代码】正则表达式的分组替换的操作。

2024-12-09 15:38:52 161

原创 match case 匹配元组

【代码】match case 匹配元组。

2024-12-09 15:14:32 145

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除