- 博客(30)
- 收藏
- 关注
原创 快速搭建Spark Standalone集群指南
在之前的学习中我们有了一个软件包 spark.3.1.2-bin-hadoop3.2.tgz (eg我的在 /opt/software目录下)把这个软件包解压到 /opt/module 下(也可以自己决定解压到哪里)。进入到hadoop100机器,切换目录到/opt/module/spark-standalone/sbin下,运行命令 ./start-all.sh。打开 /opt/module/spark-standalone/conf 中可看到修改文件内容前把 .template 后缀名都删掉再打开。
2025-05-19 08:10:16
274
原创 Yarn模式下的Spark集群搭建全攻略
对应命令为:spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster /opt/module/spark-standalone/examples/jars/spark-examples_2.12-3.1.1.jar 10。进入/opt/module/spark-yarn/sbin,运行: ./start-all.sh 和 ./start-history-server.sh。
2025-05-19 08:09:43
337
原创 Spark,HDFS客户端操作今天我又学废了于 2025-04-01 23:00:00 发布阅读量294 收藏点赞数 2文章标签: spark hdfs 大数据版权hadoop
mv是linux的命令,这里的 \ 是换行输入的意思,整体的代码就只有一句,只不过太长了,我们把它拆开成几个部分来输入,其中\ 的意思就是这里写不下,写在下一行。spark的部署方式 1,spark资源调度yran模式 三,Spark的开发方式 1,交互式开发 2,脚本式开发 一,数据处理的方式 1,单机数据处理 依赖单个计算机的资源,处理的数据量较少 在单机环境下,数据处理主要依赖于单个计算机的硬件资源。如同单一磁盘的文件系统中的文件,HDFS中的文件被分解成数据块大小的若干数据块,独立保存在各单元。
2025-05-13 15:34:49
258
原创 Spark,序列化反序列化今天我又学废了于 2025-04-15 07:00:00 发布阅读量116 收藏点赞数 1文章标签: spark 大数据 分布式版权序列化反序列化的定
更难能可贵的是,作者不仅深入浅出地阐述了这一领域的核心概念,还贯穿了大量的实例和案例分析,使得抽象的理论和现实生活紧密相连,让人受益匪浅。// 2. 使用ObjectInputStream对象中的readObject方法,读取文件中的对象。序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。常用的Java的数据类型与Hadoop的序列化的类型对比。
2025-05-13 15:32:23
248
原创 park,流量统计案例今天我又学废了于 2025-04-08 16:03:31 发布阅读量212 收藏点赞数 2文章标签: spark 大数据 分布式版权拥有一个文件,其中文件
/三个属性:手机号,上行流量,下行流量。数据: +---+-------------------+-------------------+----+ | id| startTime| endTime|flow| +---+-------------------+-------------------+----+ | 1|2020-02-18 14:20:30|2020-02-18 14:46:30| 20| | 1|2020-02-18 14:47:20|2020-02-18 15:20:30|
2025-05-13 15:31:49
324
原创 一)创建文件夹这一小结,我们来通过hadoop的相关api,实现通过代码的方式去创建文件夹。我们的目标是:在根目录下去创建一个名为maven的文件夹。要用到的api是fs.mkdirs。核心
客户端操作HDFS 1、使用shell命令 -help 功能:输出这个命令参数手册 -ls 功能:显示目录信息 示例: hadoop fs -ls hdfs://hadoop-server01:9000/ 备注:这些参数中,所有的hdfs路径都可以简写 –>hadoop fs -ls / 等同于上一条命令的效果 -mkdir 功能:在hdfs上创建目录 示例:hadoop fs -mk...RPC(远程过程调用)是分布式系统中不同节点间通信的方式,此处的错误表明在客户端和服务器之间的身份验证...
2025-05-13 15:31:17
561
原创 今天我又学废了已关注———————————————— 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。原文链接:https://blog.youkuaiyun.com/2402_87076376/article/details/144815245。
2025-05-13 15:30:37
110
原创 从单机到实时大数据:技术演进全解析
特点:提高处理能力:通过将任务分散到多个节点上并行计算,能够大大提高数据处理的速度和效率,从而可以在短时间内处理海量数据,满足大数据时代对数据处理的实时性和高效性要求。例如早期的个人电脑,通常只有几百兆的内存和几 GB 的硬盘空间。2.可靠性和可用性较低:一旦单机出现故障,整个系统就会瘫痪,导致业务中断,数据也可能丢失,没有冗余机制来保证数据的安全和业务的连续性。1.无法处理大规模数据:随着业务的发展和数据量的增长,单机系统很快就会遇到存储和处理能力的瓶颈,无法应对海量数据的存储和分析需求。
2025-05-13 15:29:41
216
原创 yum配置 Yum是一个linux工具,用来从网络上下载安装软件到CentOS操作系统中。先要确保虚拟机的网络是通畅的。(1)查看源 yum中的源是指它从哪里去下载
把yum想象成你自己开的一家商场,那么yum的源就是你的供货商。(如果显示源信息是mirrorlist.centos.org(默认源),那就不能使用了。这个源已经失效了,就是你的默认供货商跑路了!Extra Packages for Enterprise Linux是为“红帽系”的操作系统提供额外的软件包,适用于RHEL、CentOS和Scientific Linux。网络上的免费而稳定的源有很多,这里我们选择阿里云的源。具体的操作是打开/etc/hostname这个文件,并修改其中的内容。
2025-05-13 15:29:10
440
原创 一、克隆具体步骤如下:(1)关闭hadoop100这台虚拟机。注:克隆一定是在主机关机的情况下才能对其进行克隆(2)在它身上右键,并选择管理 → 克隆 命令 在设
要注意,这里是虚拟机的名称,而不是它的hostname。(2)要将这两台克隆出来的虚拟机和hadoop100保存在同一个磁盘目录下,方便我们统一管理。克隆之后,我们得到了hadoop002,hadoop003,由于它们是从hadoop001直接扣克隆过来的,所以目前他们的ip和hostname都是很hadoop100是一样的,这里就需要修改下。linux中,ip地址是写在配置文件(/etc/sysconfig/network-scripts/ifcfg-ens33)中,这里使用 vi 编辑器去修改即可!
2025-05-13 15:28:24
279
原创 揭秘Hadoop核心组件:MapReduce、Yarn与HDFS
(1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等。每个框都是一个进程,可能都运行在一台主机上,但是,属于不同的集群。对普通用户来说, Hadoop就是一个东西,一个整体,它能给我们提供无限的磁盘用来保存文件,可以使用提供强大的计算能力。在Hadoop3.X中,hadoop一共有三个组成部分:MapReduce,Yarn,HDFS。Yarn和HDFS的关系说明:逻辑上分离,物理上在一起。
2025-05-13 15:27:46
261
原创 、停止任务进入/opt/module/spark-standalone/sbin, 运行命令:./stop-all.sh二、修改配置进入 /opt/module/spark-standal
进入 /opt/module/spark-standalone/conf/spark-default.conf.temple 先把名称改成spark-default.conf,再补充两个设置。启动hadoop的hdfs服务(start-dfs.sh),并在根目录创建目录directory。原文链接:https://blog.youkuaiyun.com/2402_87076376/article/details/147615313。命令是 ./start-history-server.sh。六、重启spark集群。
2025-05-13 15:27:03
154
原创 IDEA中快速上手Spark编程指南
IDEA中,默认是不支持编写Scala的,需要额外配置一个插件。前面我们搭建好三种不同的集群,但是还没有开始学习Spark的核心内容,接下来,我们会使用Idea编辑器来写代码运行Spark程序,为我们后续的学习打好基础。命令为:[root@hadoop100 sbin]# spark-submit --class WordCount_online --master yarn /opt/module/original-untitled-1.0-SNAPSHOT.jar /wcinput /output1。
2025-05-13 15:26:30
834
原创 的三大组成: 1. HDFS:存储。文件上传
例如,Hive可以将数据存储在HDFS中,Spark可以作为Hive的执行引擎,通过Spark SQL来执行Hive的SQL查询,从而提高查询性能。mv是linux的命令,这里的 \ 是换行输入的意思,整体的代码就只有一句,只不过太长了,我们把它拆开成几个部分来输入,其中\ 的意思就是这里写不下,写在下一行。// 收集RDD的数据并打印输出结果。在处理过程中,我们需要加载这个文件,然后通过某种算法或规则(例如,根据IP地址的前几位来确定省份)来解析`ip.txt`中的每个IP地址,找出它们对应的省份。
2025-05-13 15:25:36
656
原创 一、maven打包1.maven打包MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代
原文链接:https://blog.youkuaiyun.com/2402_87076376/article/details/147305395。DEFLATE 是,直接使用 DEFLATE .deflate 否 和文本处理一样,不需要修改。Snappy 是,直接使用 Snappy .snappy 否 和文本处理一样,不需要修改。bzip2 是,直接使用 bzip2 .bz2 是 和文本处理一样,不需要修改。
2025-05-12 11:26:13
240
原创 快速搭建Spark Standalone集群指南
在之前的学习中我们有了一个软件包 spark.3.1.2-bin-hadoop3.2.tgz (eg我的在 /opt/software目录下)把这个软件包解压到 /opt/module 下(也可以自己决定解压到哪里)。进入到hadoop100机器,切换目录到/opt/module/spark-standalone/sbin下,运行命令 ./start-all.sh。打开 /opt/module/spark-standalone/conf 中可看到修改文件内容前把 .template 后缀名都删掉再打开。
2025-05-12 11:24:42
365
原创 虚拟机的指令2
查看home目录下的所有的文件的文件名 ls /home。Java虚拟机的指令由一个字节长度的、代表着某种特定操作含义的操作码(Opcode)以及跟随其后的零至多个代表此操作所需参数的操作数(Operands)所构成。一、打开指令面板,输入相关指令 切换目录: cd usr/ 切换到该目录下usr目录 cd ../ 切换到上一层目录 cd / 切换到系统根目录 cd ~ 切换到用户主目录 目录的操作命令(增删改查) 1、增加目录操作(增) 命令:mkdir 目录名称 首先打开虚拟机的命令窗口 2、查...
2025-03-03 19:51:33
332
空空如也
Spark是什么东西呀
2025-05-13
TA创建的收藏夹 TA关注的收藏夹
TA关注的人