自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(77)
  • 收藏
  • 关注

原创 Spark,RDD中的转换算子

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。原文链接:https://blog.youkuaiyun.com/2401_87076452/article/details/147890747。对具有相同键的所有值进行聚合操作 = 统计词频词频统计简洁写法。对数字1-10进行过滤,过滤出偶数。对数字1-10进行乘除,*2。reduceByKey算子。filatMap算子。

2025-05-12 11:03:02 314

原创 Spark,在shell中运行RDD程序

rdd.saveAsTextFile("hdfs://hadoop100:8020/out111")在根目录下可见out111文件,文件打开后可以看到,word2.txt文件内单词被拆分RDD的执行过程。原文链接:https://blog.youkuaiyun.com/2401_87076452/article/details/147888293。// 将单词转换为元组对象,key是单词,value是数字1。// 将单词进行切割,得到一个存储全部单词的RDD。// 读取文件,得到RDD。按住ctrl+D退出。

2025-05-12 11:02:17 325

原创 spark编写2

命令为:[root@hadoop100 sbin]# spark-submit --class WordCount_online --master yarn /opt/module/original-untitled-1.0-SNAPSHOT.jar /wcinput /output1。// 写一个spark程序,统计input目录下所有文本文件中单词的词频。// 将所有分区的数据合并成一个分区。// 读取目录下的所有文本文件。// 把结果保存在output下。// 保存结果到文件。

2025-05-06 15:17:34 466

原创 spark编写1

添加完成之后,刷新Maven,它会帮助我们去下载依赖。 5.编写代码。如果这里没有看到Scala类的选项,就去检查第2步。之后的设置如下2.将Scala添加到全局库中3.设置maven依赖项。在项目根目录下建立文件夹input,并穿件两个文本文件:word1.txt, word2.txt。它的功能是wordcount的功能:从指定的文件夹中去读取文件,并做词频统计。IDEA中,默认是不支持编写Scala的,需要额外配置一个插件。// 将所有分区的数据合并成一个分区。// 读取目录下的所有文本文件。

2025-05-06 15:16:44 329

原创 spark

History Server网址:192.168.56.100:18080HDFS的NameNode网址:http://hadoop100:9870YARN的ResourceManager网址:http://hadoo101:8088。2. MapReduce:计算。1. HDFS:存储。3. YARN:调度。

2025-05-06 15:15:27 118

原创 Spark,集群搭建之Yarn模式

对应命令为:spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster /opt/module/spark-standalone/examples/jars/spark-examples_2.12-3.1.1.jar 10。进入/opt/module/spark-yarn/sbin,运行: ./start-all.sh 和 ./start-history-server.sh。

2025-05-06 14:35:57 330

原创 Spark,配置历史服务

进入 /opt/module/spark-standalone/conf/spark-default.conf.temple 先把名称改成spark-default.conf,再补充两个设置。版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。原文链接:https://blog.youkuaiyun.com/2401_87076452/article/details/147734679。

2025-05-06 14:33:17 143

原创 Spark,集群搭建

在之前的学习中我们有了一个软件包 spark.3.1.2-bin-hadoop3.2.tgz (eg我的在 /opt/software目录下)把这个软件包解压到 /opt/module 下(也可以自己决定解压到哪里)。进入到hadoop100机器,切换目录到/opt/module/spark-standalone/sbin下,运行命令 ./start-all.sh。打开 /opt/module/spark-standalone/conf 中可看到修改文件内容前把 .template 后缀名都删掉再打开。

2025-05-06 14:32:14 235

原创 spark从0配置spark的local模式

4.重命名,把解压后的文件夹改成spark-local。因为后续我们还会使用其他的配置方式,所以这里先重命名一次。mv是linux的命令,在任务还处于运行状态时,可以通过hadoop100:4040来查看注:一旦任务结束,则这个界面就不可访问了。① 打开etc/profile.d/my_env.sh文件中,补充设置spark的环境变量。2.通过finalshell连接虚拟机,并将文件上传安装文件到 /opt/software下。进入到spark-local,运行命令spark-submit命令。

2025-04-28 22:49:28 135

原创 spark和hadoop的区别与联系

实时数据处理(如 Spark Streaming)、交互式查询(如 Spark SQL)、机器学习(MLlib)、图计算(GraphX)等多场景。组合使用:实际场景中常采用“Hadoop存储数据 + Spark处理数据”的架构,充分利用两者的优势,例如在HDFS上存储原始数据,通过Spark进行实时分析和复杂计算。总之,Hadoop是大数据领域的“地基”,而Spark是构建在其上的“多功能工具”,两者共同推动了大数据技术的发展和应用。二、Spark和Hadoop的区别。1. 同属大数据生态体系。

2025-04-28 22:47:27 525

原创 Spark,数据压缩

原文链接:https://blog.youkuaiyun.com/2401_87076452/article/details/147380562。//产生结果的时候,会用3个文件来保存。在下面位置添加下下面代码 //开启reduce端压缩。三、压缩算法对比介绍四、打开我们之前的项目(是下面这个哦)//设置reduceTask的数量。压缩的优点:以减少磁盘IO、减少磁盘存储空间。//设置reduce的个数。// 设置自定义分区器。(1)运算密集型的Job,少用压缩。(2)IO密集型的Job,多用压缩。

2025-04-21 08:56:18 194

原创 Spark,序列化反序列化

原文链接:https://blog.youkuaiyun.com/2401_87076452/article/details/147380513。// 2. 使用ObjectInputStream对象中的readObject方法,读取文件中的对象。序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。// 反序列化:将字节序列转换为内存中的对象。// hadoop 反序列化。

2025-04-21 08:55:36 409

原创 Spark,maven打包

流式计算的输入数据是动态的,会一条一条的过来,是动态产生的,而MapReduce的输入数据集是静态的,不能动态变化。注:我们集群上安装的java环境是1.8的,那么我们生成的代码也必须是这个版本的,否则,就会无法运行。注:我们集群上安装的java环境是1.8的,那么我们生成的代码也必须是这个版本的,否则,就会无法运行。我们集群上安装的java环境是1.8的,那么我们生成的代码也必须是这个版本的,否则,就会无法运行。当你的计算资源不能得到满足的时候,你可以通过简单的增加机器来扩展它的计算能力。

2025-04-21 08:55:04 255

原创 Spark,流量统计案例

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。原文链接:https://blog.youkuaiyun.com/2401_87076452/article/details/147380421。FlowBean中的代码内容为:package org.example.flow;//三个属性:手机号,上行流量,下行流量。//定义一个获取总流量的方法。//定义get/set方法。提前创好一个文件夹分为四个类。//hadoop 序列化。

2025-04-21 08:47:01 317

原创 Spark,HDFS客户端操作 2

参数优先级排序:(1)客户端代码中设置的值 >(2)然后是服务器的自定义配置(xxx-site.xml) >(3)服务器的默认配置(xxx-default.xml)这一小结,我们来通过hadoop的相关api,实现通过代码的方式去创建文件夹。接下来,我们看如何去下载文件。这里要用的API是fs.delete,用于删除 HDFS 中的文件或目录。文件更名和文件移动本质是一样的: 更新了这个文件的访问路径。注:如果执行上面代码,下载不了文件,有可能是你电脑的微软支持的运行库少,需要安装一下微软运行库。

2025-04-21 08:45:36 420

原创 Spark, MapReduce工作原理

该阶段编程模型中有一个 reduce 函数需要开发人员重写,reduce 函数的输入也是一个 <key, value> 对,reduce 函数的输出也是一个 < key,List<value>> 对。该阶段的编程模型中会有一个 map 函数需要开发人员重写,map 函数的输入是一个 < key,value > 对,map 函数的输出也是一个 < key,value > 对,key和value的类型需要开发人员指定。Shuffle:将 Map 输出的键值对按 Key 分组,发送到对应的 Reduce 节点。

2025-04-21 08:44:35 357

原创 Spark,hadoop 集群的常用命令

hadoop jar <JAR文件路径> <主类名> <输入路径> <输出路径>:提交一个 MapReduce 作业。hdfs dfs -rm <路径>:删除指定路径下的文件或目录,若要删除目录,需使用-r选项,如hdfs dfs -rm -r <目录路径>。put '<表名>', '<行键>', '<列族:列限定符>', '<值>':向指定表的指定行键插入数据。hdfs dfs -cp <源路径> <目标路径>:将文件或目录从源路径复制到目标路径。drop '<表名>':删除指定的表(需先禁用)。

2025-04-21 08:43:35 260

原创 Spark,配置hadoop集群2

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。原文链接:https://blog.youkuaiyun.com/2401_87076452/article/details/147003872。分配完成后可在其他设备上关闭myhadoop。像下图这样查看显示绿色即代表成功!1.建立新文件,编写脚本程序。保存后退出,然后赋予脚本执行权限。

2025-04-21 08:42:20 265

原创 Spark,IDEA编写Maven项目

原文链接:https://blog.youkuaiyun.com/2401_87076452/article/details/147380180。在项目的src/main/resources目录下,新建一个文件,命名为“log4j.properties”。System.out.println("根目录下的文件和目录信息:");注:这些文件都是我们老师帮我们在网上找了改动后给我们的,大家可自行在网上查找。

2025-04-21 08:40:57 349

原创 Spark,hadoop的组成

(1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等。每个框都是一个进程,可能都运行在一台主机上,但是,属于不同的集群。对普通用户来说, Hadoop就是一个东西,一个整体,它能给我们提供无限的磁盘用来保存文件,可以使用提供强大的计算能力。在Hadoop3.X中,hadoop一共有三个组成部分:MapReduce,Yarn,HDFS。Yarn和HDFS的关系说明:逻辑上分离,物理上在一起。

2025-04-21 08:40:05 326

原创 Spark;修改配置文件,启动集群,查看运行结果,纠错

则说明:该服务可以接受来自任何 IP 地址的连接请求,Hadoop 的 NameNode(默认在 9870 端口提供服务)已经正常启动并监听端口。若集群是第一次启动,需要在hadoop100节点(指定为namenode的节点)格式化NameNode(注意:格式化NameNode,会产生新的集群id)原文链接:https://blog.youkuaiyun.com/2401_87076452/article/details/146406773。注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行!

2025-04-21 08:39:18 285

原创 Spark,hadoop的组成

(1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等。每个框都是一个进程,可能都运行在一台主机上,但是,属于不同的集群。对普通用户来说, Hadoop就是一个东西,一个整体,它能给我们提供无限的磁盘用来保存文件,可以使用提供强大的计算能力。在Hadoop3.X中,hadoop一共有三个组成部分:MapReduce,Yarn,HDFS。Yarn和HDFS的关系说明:逻辑上分离,物理上在一起。

2025-04-21 08:37:21 405

原创 spark工作原理

该阶段编程模型中有一个 reduce 函数需要开发人员重写,reduce 函数的输入也是一个 <key, value> 对,reduce 函数的输出也是一个 < key,List<value>> 对。该阶段的编程模型中会有一个 map 函数需要开发人员重写,map 函数的输入是一个 < key,value > 对,map 函数的输出也是一个 < key,value > 对,key和value的类型需要开发人员指定。Shuffle:将 Map 输出的键值对按 Key 分组,发送到对应的 Reduce 节点。

2025-04-04 22:47:05 533

原创 spark 集群

找到资料包路径下的Windows依赖文件夹,拷贝hadoop-3.1.0到非中文路径(比如d:\hadoop-3.1.0)② 在下方系统变量中新建HADOOP_HOME环境变量,值就是保存hadoop的目录。⑤ 打开电脑终端验证Hadoop环境变量是否正常。hadoop客户端环境准备。③ 配置Path环境变量。Maven的配置同上。

2025-04-04 22:46:17 205

原创 spark

把本地的文件上传到HDFS,并删除本地的文件。(1)文件上传 HDFS 的时候,Client 将文件切分成一个一个的 Block,然后进行上传;使用-rm -r命令, 它用来删除目录及目录里面内容,它的格式是: -rm -r 要删除的文件夹。使用-mkdir命令。使用-mv命令,它的格式是: hadoop fs -mv 文件起点 终点。hadoop fs -get (服务器上的文件路径 本地文件路径)表示从HDFS的一个路径拷贝到HDFS的另一个路径。2.如果要保留本地的文件,可以使用 -put 命令。

2025-04-04 22:45:18 1044

原创 aspark 配置2

启动命令:[root@hadoop100 sbin]# myhadoop start。关闭命令:[root@hadoop100 sbin]# myhadoop stop。分配完成后可在其他设备上关闭myhadoop。像下图这样查看显示绿色即代表成功!1.建立新文件,编写脚本程序。保存后退出,然后赋予脚本执行权限。编写Hadoop集群启停脚本。

2025-04-04 22:29:12 441

原创 spark 配置

方式1:直接去看所有的历史记录 http://hadoop100:19888/jobhistory。在hadoop的安装目录下,打开mapred-site.xml,并在该文件里面增加如下两条配置。同样也是在hadoop100内找到yarn-site.xml文件,我们添加如下的配置。对应的命令是: mapred --daemon start historyserver。请注意:你在配置的时候指定哪个节点是历史服务器,就在哪里启动,请不要搞错了。通过jps命令来查看历史服务器是否已经成功启动了。

2025-04-04 22:28:24 229

原创 spark

在NameNode上上传<128M文件时可直接上传当文件>128M时会将这个大文件拆分为多个小文件上传。在FinalShell上用命令上传文件就是。先使用命令打开HDFS的NameNode。上传的文件下载下来…2.在yarn上查看上传的文件。上传小文件(小于128M)上传大文件(大于128M)刷新yarn即可查看。

2025-04-04 22:27:39 304

原创 Spark;scp命令,rsync命令,ssh命令

伪分布式:也是在一台单机上运行,但用不同的 Java 进程模仿分布式运行中的各类节点,特点:Hadoop 启动的这些守护进程都在同一台机器上运行,是相互独立的 Java 进程。eg命令:scp -r /opt/module/jdk1.8.0_212/ root@hadoop102:/opt/module/jdk1.8.0_212/命令:rsync -av /opt/conf/1.txt root@roothadoop102:/opt/conf/$pdir/$fname :要拷贝的文件路径 / 名称。

2025-03-10 19:23:29 339

原创 spark Linux配置

要注意,这里是虚拟机的名称,而不是它的hostname。(2)要将这两台克隆出来的虚拟机和hadoop100保存在同一个磁盘目录下,方便我们统一管理。克隆之后,我们得到了hadoop002,hadoop003,由于它们是从hadoop001直接扣克隆过来的,所以目前他们的ip和hostname都是很hadoop100是一样的,这里就需要修改下。linux中,ip地址是写在配置文件(/etc/sysconfig/network-scripts/ifcfg-ens33)中,这里使用 vi 编辑器去修改即可!

2025-03-08 14:45:22 350

原创 spark yum配置

把yum想象成你自己开的一家商场,那么yum的源就是你的供货商。这个源已经失效了,就是你的默认供货商跑路了!如果是win11,它在Windows/system32/hosts 文件,如果是win10,它在C:\Windows\System32\drivers\etc\hosts。我们打开这个文件,并在最后一行的后边,添加三个新行,内容是:IP地址 主机名 eg:192.168.56.101 hadoop100(注:IP地址和主机名之间有一个空格)网络上的免费而稳定的源有很多,这里我们选择阿里云的源。

2025-03-08 14:43:58 346

原创 spark 常见操作命令

这里要注意一下:VMware net work Adpater VMnet8是安装了Vm这个软件之后会自动产生的。重启的命令是reboot,检查是否能Ping通外网。注意:这里的第三个部分的10并不是固定的,我们自己可以约定,但是约定之后就要固定下来。选择VMnet8, 要改动两个地方(注意:它会需要管理员权限):。让所有的VM配置的虚拟机使用NAT时,它们的网段都是一致的。(3) 最后,关闭服务器的防火墙。配置即让自己的虚拟机可以联网,和别的虚拟机通讯。三、设置虚拟机hadoop100的IP。

2025-03-03 19:15:08 489

原创 安装vm和centOS

1. 下载 VMware Workstation Pro 访问 VMware 官方网站(https://www.vmware.com/cn/products/workstation-pro/workstation-pro-evaluation.html ),根据自己的操作系统版本下载对应的 VMware Workstation Pro 安装程序。- 在安装信息摘要界面,设置“安装位置”、“软件选择”等选项: - 点击“安装位置”,选择自动分区或手动分区,然后点击“完成”。- 安装完成后,点击“完成”。

2025-02-25 14:33:08 414

原创 vi的基本使用

1.如果这个文件不存在,此时就是新建文件,编辑器的左下角会提示:new file。vi编辑器有三种工作模式,分别为:命令模式,输入模式,底线模式。提示:在命令模式下按shift + zz,可实现快速保存退出。由于没有鼠标,我们的操作都是用键盘来控制光标的。2.如果文件已存在,此时就打开这个文件,进入命令模式。底线命令模式:以:开始,通常用于文件的保存和退出。是Linux的内置命令,以命令的方式来运行。4.G键(大写g)可以跳到文件的最后一行。5.8g键(两个小g)跳到文件的第一行。

2025-02-24 20:09:22 333

原创 Linux命令

会把aaa、这三个字符写入a.txt文件,并把之前的内容全部覆盖掉(等价于先删除了a.txt的内容,再写入aaa)会把文件的最尾部的内容显示在屏幕上,并且不断刷新,只要文件有更新,就可以看到最新的文件内容。那么对应的命令就是:cp filel.txt file2.txt。命令是:tar -cvf test.tar 1.txt 2.txt 3.txt。示例1:把1.txt,2.txt,3.txt压缩到test.tar文件中。格式:tar -cvf 压缩包.tar 文件1 文件2 文件3。

2025-02-24 20:08:24 373

原创 Linux操作系统

当前路径:也叫做当前工作目录是当下用户所处的位置。pwd可以输出当前路径。相对路径:当前相对当前工作目录开始的路径,会随着当前路径变化而变化。绝对路径:不管工作目录在哪绝对路径都是从/根目录开始,唯一不重复。.. 命令,当前目录的上一级目录~波浪线,当前用户的home目录,比如root用户home目录是/root/根目录ll 命令,用来显示当前的目录下的文件ll -a 命令,显示当前的目录下的文件,包括隐藏文件cd 命令,用来进入指定的目录cd.. 命令,用回退上一级目录touch 命令:创

2025-02-24 20:07:19 194

原创 spark

波浪线,当前用户的home目录,比如root用户home目录是/root。rm -rf ./bbb 将目录及以下所有递归逐一删除,无需用户确认。rm -rf /* 将根目录及以下所有递归逐一删除,无需用户确认。相对路径:当前相对当前工作目录开始的路径,会随着当前路径变化而变化。mkdir -p:创建目录,如果父级目录不存在,就建立一个新目录。删除文件无需用户确如 rm -f +文件名 (慎用!ll -a 命令,显示当前的目录下的文件,包括隐藏文件。ll 命令,用来显示当前的目录下的文件。

2025-02-21 11:32:46 126

原创 spark

特点:提高处理能力:通过将任务分散到多个节点上并行计算,能够大大提高数据处理的速度和效率,从而可以在短时间内处理海量数据,满足大数据时代对数据处理的实时性和高效性要求。1.硬件资源有限:单机系统的计算能力、存储容量和内存空间都受限于单台计算机的硬件配置。1.无法处理大规模数据:随着业务的发展和数据量的增长,单机系统很快就会遇到存储和处理能力的瓶颈,无法应对海量数据的存储和分析需求。3.应用场景简单:主要用于个人办公、简单的游戏娱乐或小型企业的基本业务处理,如文字处理、单机游戏、简单的库存管理等。

2025-02-21 11:32:09 137

原创 思维导图scala

2025-01-01 18:50:01 103

原创 scala

2024-12-30 07:49:43 102

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除