- 博客(83)
- 收藏
- 关注
原创 Spark,SparkSQL DataFrame
sparksql DataFrame 定义:一种分布式的数据集,类似于二维表格(MySQL数据库中的数据表)
2025-05-19 07:00:00
218
原创 Spark,数据提取和保存
在shell中上一个内容进去的地方打如下代码,系统就会认识中文(系统默认英文)在data下创建一个名为user.csv的文件。运行一下结果在shell中输出。
2025-05-18 07:00:00
185
原创 Spark,Spark缓存Cache
2.第一次调用collect和第二调用collect花的时间基本一致。这就是没有缓存的效果。1.map算子是转换算子,并不会导致真正的计算。带缓存的可以看到第二次明显比第一次快很多。
2025-05-17 13:15:00
256
原创 Spark,连接MySQL数据库,添加数据,读取数据
在IDEA中打代码如果能输出跟shell中一样的结果即证明连接成功。读取数据就是在上面代码中一起展示了,这里我就不单独说了。像我前面出错的原因就是在打代码时将密码输入错误。可以看到shell中我们读取出的数据。
2025-05-17 10:00:00
252
原创 Spark,SparkSQL操作Mysql, 创建数据库和表
通过命令:show databases;2.想我上面输出了有结果的即证明有,使用下列命令删除即可。8.查看临时密码(eg:我的临时密码在最下面)6.后输入以下5条命令安装mysql。3.进入我们常用存放压缩包的地方。SparkSQL操作Mysql。1.查看系统内是否有mysql。使root允许任意ip连接。4.将压缩包拖入后解压。7.安装后初始化数据库。
2025-05-16 18:11:38
803
原创 解决问题…
后使用代码[root@hadoop100 bin]# hdfs dfsadmin -safemode leave。返回结果 “Safe mode is OFF” 表明 NameNode 已成功退出安全模式。一开始我的Hadoop 的 NameNode 处于安全模式,故代码无法执行。
2025-05-16 15:23:17
162
原创 Spark,数据清洗
eg:如下姓名+年龄+性别 而数据中我们可明显看到第2,7行数据是错误的,现在我们把它洗掉。coalesce(1)这个方法可以让结果全部保存在一个文件中。运行结果:可以看到“脏”数据已经被洗出去了。如何把清洗之后的数据保存到一个文件中?先创建一个文档然后写几条数据。
2025-05-16 15:16:54
742
原创 Spark,RDD中的行动算子
返回值:该算子的返回类型为 Unit,即不返回任何有意义的值,它主要是为了执行副作用操作。格式:def reduce(func: (T, T) => T): T。格式:def foreach(f: T => Unit): Unit。返回值:返回一个单一的值,其类型与 RDD 中元素的类型相同。格式:def collect(): Array[T]count,聚合操作 eg:计算rdd中的元素之和。参数说明:该算子没有参数。
2025-05-13 13:00:00
161
原创 Spark,在shell中运行RDD程序
在根目录下可见out111文件,文件打开后可以看到,word2.txt文件内单词被拆分。在hdfs中/wcinput中创建一个文件:word2.txt在里面写几个单词。进入环境:spark-shell --master yarn。按住ctrl+D退出。
2025-05-09 17:35:10
406
原创 Spark,Idea中编写Spark程序 2
修改两个地方:输入目录改成args(0), 输出的目录改成args(1)。出现结果如下即为运行成功。
2025-05-04 23:00:00
491
原创 Spark,Idea中编写Spark程序 1
8.准备待统计的词频文件。在项目根目录下建立文件夹input,并穿件两个文本文件:word1.txt, word2.txt。它的功能是wordcount的功能:从指定的文件夹中去读取文件,并做词频统计。6.新建Scala类。如果这里没有看到Scala类的选项,就去检查第2步。3.设置maven依赖项。添加完成之后,刷新Maven,它会帮助我们去下载依赖。1.启动idea,选择新建项目。IDEA中,默认是不支持编写Scala的,需要额。选择Object,输入WordCount。
2025-05-03 04:00:00
276
原创 Spark,集群搭建之Yarn模式
spark-defaults.conf.template 改成 spark-defaults.conf。打开 /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml 因为测试环境虚拟机内存较少,防止执行过程进行被意外杀死,添加如下配置。上传并解压spark-3.1.2-bin-hadoop3.2.tgz,重命名解压之后的目录为spark-yarn。启动spark和spark的历史服务器。
2025-05-01 10:30:00
344
原创 Spark,配置历史服务
进入 /opt/module/spark-standalone/conf/spark-default.conf.temple 先把名称改成spark-default.conf,再补充两个设置。启动hadoop的hdfs服务(start-dfs.sh),并在根目录创建目录directory。可以通过命令行的方式来创建,也可以通过hadoop100:9870的页面操作来创建。4、5两步在上一条博客中直接一起配置了,所以这里可自行跳过。
2025-04-30 08:30:00
418
原创 Spark,集群搭建-Standalone
在之前的学习中我们有了一个软件包 spark.3.1.2-bin-hadoop3.2.tgz (eg我的在 /opt/software目录下)把这个软件包解压到 /opt/module 下(也可以自己决定解压到哪里)。进入到hadoop100机器,切换目录到/opt/module/spark-standalone/sbin下,运行命令 ./start-all.sh。打开 /opt/module/spark-standalone/conf 中可看到修改文件内容前把。内容设置为三个主机名。
2025-04-29 16:06:24
763
原创 Spark,从0开始配置Spark的local模式
4.重命名,把解压后的文件夹改成spark-local。因为后续我们还会使用其他的配置方式,所以这里先重命名一次。① 打开etc/profile.d/my_env.sh文件中,补充设置spark的环境变量。2.通过finalshell连接虚拟机,并将文件上传安装文件到 /opt/software下。进入到spark-local,运行命令spark-submit命令。在任务还处于运行状态时,可以通过hadoop100:4040来查看。3.解压spark安装文件到/opt/module下。
2025-04-21 10:25:41
615
原创 Spark,数据压缩
压缩格式hadoop自带算法文件扩展名是否可切片换成压缩格式后,原来的程序是否需要修改DEFLATE是,直接使用DEFLATE.deflate否和文本处理一样,不需要修改Gzip是,直接使用DEFLATE.gz否和文本处理一样,不需要修改bzip2是,直接使用bzip2.bz2是和文本处理一样,不需要修改LZO否,需要安装LZO.lzo是需要建索引,还需要指定输入格式Snappy是,直接使用Snappy.snappy否。
2025-04-17 14:28:01
416
原创 Spark,序列化反序列化
通过文件输入流读入文件,并使用ObjectInputStream来进一步实例化对象,然后调用readObject来生成对象。序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。常用的Java的数据类型与Hadoop的序列化的类型对比。新建文件输出流对象,并写入要实例化的实例。
2025-04-15 07:00:00
152
原创 Spark,maven打包
在这种情况下,MapReduce并不是不能做,而是使用后,每个MapReduce作业的输出结果都会写入到磁盘,会造成大量的磁盘IO,导致性能非常的低下。流式计算的输入数据是动态的,会一条一条的过来,是动态产生的,而MapReduce的输入数据集是静态的,不能动态变化。我们集群上安装的java环境是1.8的,那么我们生成的代码也必须是这个版本的,否则,就会无法运行。我们集群上安装的java环境是1.8的,那么我们生成的代码也必须是这个版本的,否则,就会无法运行。修改driver类的代码,更新输入和输入路径。
2025-04-14 08:39:04
704
原创 Spark,流量统计案例
拥有一个文件,其中文件内容(内容随便写符合规矩即可)分别为电话号码 上行流量 下行流量(第一行是写给大家看的 注释不用写出来)提前创好一个文件夹分为四个类。
2025-04-08 16:03:31
238
原创 Spark,HDFS客户端操作 2
这一小结,我们来通过hadoop的相关api,实现通过代码的方式去创建文件夹。我们的目标是:在根目录下去创建一个名为maven的文件夹。要用到的api是fs.mkdirs。运行后我们可能会遇到一个错误:此时,需要去设置登录的用户名。然后再去尝试。去到hdfs的UI界面上去检查是否运行成功。
2025-04-08 12:00:00
587
原创 Spark,IDEA编写Maven项目
在项目的src/main/resources目录下,新建一个文件,命名为“log4j.properties”。这里的dependencies要这一步中的hadoop-client要和我们前面客户端准备中下载的hadoop保持一致。这些文件都是我们老师帮我们在网上找了改动后给我们的,大家可自行在网上查找。3.创建包为org.example,并在下面创建Main类。1.在之前创建的pom.xml文件中添加下列代码。IDEA中编写Maven项目。3.IDEA中配置Maven。编写代码测试HDFS连接。
2025-04-07 15:35:08
522
原创 Spark,HDFS客户端操作
找到资料包路径下的Windows依赖文件夹,拷贝。打开电脑终端验证Hadoop环境变量是否正常。,值就是保存hadoop的目录。hadoop客户端环境准备。adoop-3.1.0到。Maven的配置同上。
2025-04-01 23:00:00
375
原创 Spark,HDFS概述
当 NameNode 挂掉的时候,它并不能马上替换 NameNode 并提供服务。(1) 辅助 NameNode,分担其工作量,比如定期合并 Fsimage 和 Edits,并推送给 NameNode;(1)文件上传 HDFS 的时候,Client 将文件切分成一个一个的 Block,然后进行上传;(4) Client 提供一些命令来管理 HDFS,比如 NameNode 格式化;命令,它的格式是: hadoop fs -mv 文件起点 终点。(2)与 NameNode 交互,获取文件的位置信息;
2025-04-01 13:35:01
825
原创 Spark,配置hadoop集群2
编写Hadoop集群启停脚本1.建立新文件,编写脚本程序在hadoop101中操作,在/root/bin下新建文件:myhadoop。
2025-04-01 13:03:53
205
原创 Spark,配置hadoop集群1
同样也是在hadoop100内找到yarn-site.xml文件,我们添加如下的配置。和之前的配置一样,我们需要把这个更新之后的yarn-site.xml文件。你在配置的时候指定哪个节点是历史服务器,就在哪里启动,请不要搞错了。在hadoop的安装目录下,打开mapred-site.xml,并。关闭掉yarn和historyServer,然后再重启。点击对应的JobID,就可以进一步查看任务运行日志。然后在点击logs,就可以查看运行日志的详情了。进入到我们安装yarn的主机,通过命令来。
2025-03-31 22:19:23
824
原创 Spark,上传文件
在FinalShell上用命令上传文件就是。上传的文件下载下来…时会将这个大文件拆分为多个小文件上传。文件时可直接上传当文件。NameNode上上。随机创建一个小文件在。刷新yarn即可查看。
2025-03-31 21:49:42
502
原创 Spark;修改配置文件,启动集群,查看运行结果,纠错
接下来配置第二个文件,/opt/module/hadoop-3.1.3/etc/hadoop。当前要操作的文件是:/opt/module/hadoop-3.1.3/etc/hadoop。则说明:该服务可以接受来自任何 IP 地址的连接请求,Hadoop 的。配置/opt/module/hadoop-3.1.3/etc/hadoop。配置/opt/module/hadoop-3.1.3/etc/hadoop。同步给其他的机器,并使用source命令,让环境变量生效!解决办法:使用命令确认一下。
2025-03-18 10:00:00
1386
原创 Spark,hadoop的组成
(1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等。Yet Another Resource Negotiator,简称YARN,另一种资源协调者,是Hadoop的资源管理器。每个框都是一个进程,可能都运行在一台主机上,但是,属于不同的集群。对普通用户来说, Hadoop就是一个东西,一个整体,它能给我们提供无限的磁盘用来。个组成部分:MapReduce,Yarn,HDFS。
2025-03-17 21:41:12
394
原创 Spark;scp命令,rsync命令,xsync同步,ssh命令
eg命令:scp -r /opt/module/jdk1.8.0_212/ root@hadoop102:/opt/module/jdk1.8.0_212/命令:rsync -av /opt/conf/1.txt root@roothadoop102:/opt/conf/eg:目标:hadoop100通过ssh访问hadoop101,hadoop102时不需要密码,其他两台设备也类似。此时,我们去查看文件,可以看到它的颜色是灰色的,不具备执行权限(如下图)。这个部分的代码不需要会写,能看懂,了解即可。
2025-03-10 13:38:23
500
原创 Spark,Linux yum配置
把yum想象成你自己开的一家商场,那么yum的源就是你的供货商。这个源已经失效了,就是你的默认供货商跑路了!如果是win11,它在Windows/system32/hosts 文件,如果是win10,它在C:\Windows\System32\drivers\etc\hosts。我们打开这个文件,并在最后一行的后边,添加三个新行,内容是:IP地址 主机名 eg:192.168.56.101 hadoop100(注:IP地址和主机名之间有一个空格)网络上的免费而稳定的源有很多,这里我们选择阿里云的源。
2025-03-03 21:41:07
487
原创 Spark,Linux配置
这里要注意一下:VMware net work Adpater VMnet8是安装了Vm这个软件之后会自动产生的。注意:这里的第三个部分的10并不是固定的,我们自己可以约定,但是约定之后就要固定下来。命令是reboot,检查是否能Ping通外网。让所有的VM配置的虚拟机使用NAT时,它们的网段都是一致的。eg:修改打开的文件内容为: hadoop100。修改完成之后,esc退出编辑模式, :wq 保存退出。配置即让自己的虚拟机可以联网,和别的虚拟机通讯。进入虚拟机,修改对应的IP。
2025-02-26 10:30:00
584
原创 Spark,vi的基本使用
1.如果这个文件不存在,此时就是新建文件,编辑器的左下角会提示:new file。d(一个小d)加←删除左侧一个单词,d(一个小d)加→删除右侧一个单词。vi编辑器有三种工作模式,分别为:命令模式,输入模式,底线模式。2.如果文件已存在,此时就打开这个文件,进入命令模式。底线命令模式:以:开始,通常用于文件的保存和退出。2.nyy(n+两个小y)复制当前行往下n行内容。2.ndd(n+两个小d)用来删除当前行往下n行。nyy(n+两个小y)复制当前行往下n行内容。1.yy(两个 y)复制光标所在行的内容。
2025-02-24 11:35:14
407
原创 Spark ,虚拟机(Linux)基本命令(2)
cp 命令,复制格式:cp 源文件 目标文件cp -r 命令 复制目录格式:cp -r 源文件 目标文件夹mv 命令,重命名和移动格式:mv 源文件 目标文件说明:若源文件和目标文件在同一个目录下,就是重命名,否则就是移动。重命名操作:mv file.txt newfile.txt移动操作:mv file.txt newdir/file.txt。
2025-02-24 10:36:49
446
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅