- 博客(56)
- 收藏
- 关注
原创 在scala中sparkSQL读入csv文件
在 Scala 中使用 Spark SQL 读取 CSV 文件并写入 MySQL 数据库是一个常见的数据处理任务。
2025-05-13 09:06:24
577
原创 在scala中sparkSQL连接mysql并添加新数据
通过以上步骤,你可以轻松地将数据从Spark写入MySQL数据库。确保已安装Apache Spark和MySQL。下载并添加MySQL JDBC驱动到Spark的。如果使用Maven项目,可以在。创建一个包含新数据的。
2025-05-13 08:57:31
296
原创 hadoop中创建MySQL新数据库数据表
在Hadoop环境中创建MySQL数据库和数据表,通常需要通过MySQL命令行工具来完成,而不是直接在Hadoop中操作。
2025-05-13 08:50:24
468
原创 spark MySQL数据库配置
配置连接MySQL的JDBC属性,包括数据库URL、用户名、密码等。:确保已经安装了Apache Spark,并配置好环境变量。:在生产环境中,建议使用数据库连接池来提高性能和可扩展性。:安装MySQL数据库,并创建好需要操作的数据库和表。:在使用JDBC连接时,要确保正确处理可能出现的异常。:如果MySQL数据库使用了SSL加密,需要在。对象,这是使用Spark进行数据处理的基础。对读取到的数据进行处理,例如过滤、聚合等。将处理后的数据写回到MySQL数据库中。),并将其放置到Spark的。
2025-05-13 08:38:24
373
原创 spark sql基本操作
Spark SQL 是 Apache Spark 的一个模块,用于处理结构化数据。它允许用户使用标准的 SQL 语法来查询数据,并且可以无缝地与 Spark 的其他功能(如 DataFrame、Dataset 和 RDD)结合使用。以下是 Spark SQL 的基本使用方法和一些常见操作的介绍。
2025-05-13 08:34:37
504
原创 sparkrdd分区器
在Spark中,RDD分区器是用于控制RDD数据如何在集群中分布和组织的关键组件。分区器的作用是将数据划分为多个分区,以便Spark能够高效地并行处理数据,同时减少数据传输开销。
2025-05-13 08:28:58
434
原创 如何在idea中写spark程序
如果一切配置正确,程序将执行 WordCount 任务,并将结果保存到指定的输出路径。下载并安装 IntelliJ IDEA(推荐使用 Community 版本,对于大多数 Spark 开发需求已经足够)。如果需要使用其他 Spark 组件(如 Spark Streaming、MLlib 等),请在。如果使用集群运行,确保集群的 Spark 和 Hadoop 版本与项目依赖一致。确保本地环境(如 Java、Scala、Maven)已正确安装并配置。在弹出的运行配置窗口中,确保。)、项目位置等信息,点击。
2025-04-28 19:57:28
1369
原创 如何搭建spark yarn模式的集群
推荐使用 CentOS、Ubuntu 等 Linux 发行版。:确保集群中各节点网络互通,主机名和 IP 地址已正确配置。:将 Hadoop 解压到指定目录,例如。将主节点的 Spark 安装目录(例如。:安装 JDK 1.8 或以上版本。下载预编译好的 Spark 安装包。确保所有节点的环境变量一致,修改。文件,添加所有从节点的主机名。下载合适版本的 Hadoop。文件,配置 HDFS。文件,配置 YARN。修改 Hadoop 的。文件分发到所有节点。
2025-04-28 19:53:10
926
原创 spark-local模式
这里使用单机模式快运行第一个Spark程序,让大家有个基本的印象。在安装Spark时,它就提供了一些示例程序,我们可以直接来调用。进入到spark-local,运行命令spark-submit命令。4.重命名,把解压后的文件夹改成spark-local。因为后续我们还会使用其他的配置方式,所以这里先重命名一次。安装Spark的过程就是下载和解压的过程。接下来的操作,我们把它上传到集群中的节点,并解压运行。1.打开etc/profile.d/my_env.sh文件中,补充设置spark的环境变量。
2025-04-22 09:35:48
189
原创 spark和hadoop之间的对比和联系
RDD具有血统机制(lineage),当某个节点的数据丢失时,可以通过重新计算丢失数据的血统来恢复数据,从而保证计算任务的正常进行。例如,在一个数据处理任务中,数据首先存储在HDFS上,Spark可以读取HDFS中的数据进行处理,处理后的结果也可以写回到HDFS。在大数据时代,数据量呈爆炸式增长,无论是Hadoop还是Spark,它们的出现都是为了解决传统数据处理系统(如关系型数据库)在面对海量数据时的性能瓶颈问题,满足企业对大规模数据存储、处理和分析的需求。◦ Spark:Spark的运维相对简单。
2025-04-22 08:18:57
418
原创 如何配置hadoop环境变量
下载配置JAVA_HOME并检查是否成功配置HADOOP_HOME,环境变量path添加%HADOOP_HOME%\bin。首先下载hadoop2.7.1和hadooponwindows-master.zip。
2025-04-15 08:11:29
122
原创 如何进行流量统计
再去提交job和进行关联mapper和reducer进行汇总设置输出类型路径。进行运行生成一个output目录 part-r-00000中则会生成结果。先创建一个目录并列出统计的三个元素,手机号,上行流量,下行流量。将手机号的上行流量与下行流量进行汇总计算数据。再继承Reducer,并重写reduce函数。再对多个元素进行封装,hadoop序列化。再继承mapper重写map函数。
2025-04-09 15:40:20
280
原创 如何数据清洗
/ 3. 关联Mapper和Reducer。// 获取一行数据,用空格拆分为一个个单词。// 1. 获取配置信息以及获取job对象。// 4. 设置Mapper输出的KV类型。// 对 values中的值进行累加求和。// 遍历单词,设置键值对,值为1。// 5. 设置最终输出KV类型。// mapreduce的Driver。// 2. 关联本地的jar。// 继承 reducer类。// 继承Mapper。
2025-04-02 15:36:35
141
原创 mapreduce的工作原理
MapReduce 是一种分布式计算模型,主要用于处理大规模数据集。它通过将任务分解为两个主要阶段:Map(映射)阶段和 Reduce(归并)阶段,来实现高效的数据处理。
2025-03-31 19:45:28
741
原创 Hadoop集群的常用命令
此命令能显示当前在 YARN 集群上运行的所有应用程序。是包含 MapReduce 程序的 JAR 文件路径,此命令可列出 HDFS 根目录下的所有文件和目录。该命令会列出 YARN 集群中所有节点的状态信息。此命令会运行一个 MapReduce 作业,其中。该命令会在 HDFS 根目录下创建一个名为。此命令可递归删除 HDFS 上的。是要终止的应用程序的 ID。文件上传到 HDFS 的。该命令会将 HDFS 上的。目录及其所有子目录和文件。分别是输入和输出路径。
2025-03-31 19:40:46
266
原创 使用xsync脚本同步文件
保存后读取一下文件再打开脚本如果权限不够输入命令chmod +x /root/bin/xsync再次读取会发现文件变为绿色打开后在hadoop100中conf文件夹下创建6.txt并输入指令 xsync /opt/conf/在root文件夹中创建bin文件夹在其中创建文件xsync并打开文件输入。#6. 获取当前文件的名称。它会让你输入俩次密码,代码完成后会发现文件全部同步了。#4. 判断文件是否存在。#3. 遍历所有目录,挨个发送。#2. 遍历集群所有机器。#1. 判断参数个数。
2025-03-12 15:47:06
402
原创 如何同步虚拟机文件夹
先进入hadoop100虚拟机中opt文件夹下创建conf文件夹并在其中创建四个文本文件并输入命令rsync -av conf/ root@hadoop101:/opt/conf就能将conf文件夹同步到hadoop101opt文件夹中。
2025-03-12 15:34:53
137
原创 如何将两台虚拟机进行搭桥
进入hadoop101虚拟机输入命令scp -r root@hadoop100:/opt/modules/jdk1.8.0_212 root@hadoop102:/opt/modules/输入yes并输入密码就能完成搭桥。
2025-03-11 11:17:33
107
原创 如何使用scp命令拉取其他虚拟机中的文件
输入命令scp -r root@hadoop100:/opt/modules/hadoop-3.1.3 /opt/modules。之后yes并输入密码就能抓取文件hadoop100文件到终点的文件了。在opt文件夹中创建modules。
2025-03-11 10:58:39
165
原创 如何使用scp命令拷贝hadoop100中的文件到其他虚拟机中
输入命令scp -r jdk1.8.0_212/ root@hadoop101:/opt/module。启动俩个虚拟机,在有原文件的那个虚拟机中输入命令cd/opt/module来到module中。回车后输入密码回车进入要拷贝的那个虚拟机中再刷新一下文件夹。在新的虚拟机的opt文件夹中创建文件夹module。
2025-03-11 10:21:46
139
原创 运行一个hadoop程序
在hadoop文件夹下创建wcinput文件夹,在文件夹下创建俩个文本文件 word1.txt,word2.txt文件。并刷新会出现一个文件夹wcoutput,进入后一个38b左右大小的文件中计数俩个文件中出现的数量。回到hadoop目录下opt/module/hadoop-3.1.3运行命令。分别编辑word1.txt和word2.txt文件内容。
2025-03-11 10:06:11
296
原创 如何在虚拟机上安装hadoop
与前面java的方式相同安装好hadoop后进入hadoop的环境变量my_env.sh。再输入hadoop测试是否安装成功。
2025-03-11 09:55:13
177
原创 在虚拟机上安装javajdk
1在opt文件里创建文件夹software并上传压缩包并创建module文件夹。3解压完成后打开etc/profile.d新建my_eny.sh配置环境变量。打开虚拟机后把javajdk文件上传到服务器上,解压文件并配置环境变量。4测试是否成功安装运行java命令java -version。2确认上传成功后,运行命令tar -zxvf。-C /opt/module/进行解压。#JAVA_HOME #是注释。
2025-03-11 09:50:50
257
原创 yum的使用
yum repolist 就可以查看默认源,再配置源sudo curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo(这里是阿里云)它其实是覆盖了centos-base.repo这个文件。(yum 修改阿里云)打开虚拟机后输入命令安装插件。
2025-03-04 09:38:23
491
原创 配置hosts
在文件里添加192.168.10.100 hadoop100(ip地址和主机之间要有空格)并保存使用finalshell连接主机。在c盘中打开windows/system32/drivers/etc/hosts。127.0.0.1 douyin.com 就可以让抖音无法使用。
2025-03-04 09:34:26
294
原创 虚拟网络IP设置
打开虚拟机mv编辑选项,打开虚拟网络编辑器,点击vmnet8,修改子网为192.168.10.0,再nat设置修改网关为192.168.10.2。打开控制面板网络连接右击vmnet8属性找到ipv4修改地址和网关地址为192.168.10.1,默认网关为192.168.10.2。BOOTPROTO修改为=static并在末尾添加ONBOOT=yes。检查ping能否通网 ping www.baidu.com。进入虚拟机修改对应ip,修改配置文件。
2025-02-26 15:26:45
233
1
原创 vi编辑器的模式与操作以及tar命令的使用
tar用于压缩和解压文件 tar -cvf test.tar 1.txt 2.txt 3.txt将多个文件压缩,tar -xvf test.tar -C./temp。yy复制当前行nyy复制光标后n行,p粘贴内容到光标后,P粘贴内容到下一行,dd删除当前行,ndd删除光标后n行,u撤销上一次操作,ctrl+r重做上一步。末行模式:进入 , 插入模式aio进入 ,命令模式esc进入。w保存q退出wq保存退出wq!shift+zz快速保存退出。
2025-02-25 11:24:05
118
原创 VMware的linux常见命令
删除文件或目录-f无需用户确认-r删除目录-rf删除目录无需用户确认 -rf/*删除所有目录。ls -l详细列表 -a显示所有文件包括隐藏的-lh人类可读的方式(多了k):创建目录,-p如果父级目录不存在就创建父级目录。cd bin到bin目录。:移动或重命名文件或目录。tab键,实现自动补齐。touch创建请空文件。
2025-02-19 15:57:50
113
1
原创 如何在vmware安装虚拟机并设置密码
打开虚拟机后enter选择要安装的操作系统,等待安装完成以后选择要使用的语言,设置完磁盘的存储设置,选择自动分配分区,完成后会出现完成的ui点击完成设置root密码,输入密码,然后确认密码后点击完成,等待安装完后,输入root再输入密码就能完成问题了。安装完vmware后点击创建虚拟机,自定义设置设置完虚拟机的内存硬盘大小以及处理器设置,选择光盘映像文件,自定义虚拟机的名称,选中linux系统。
2025-02-18 11:40:54
323
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅