自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(69)
  • 收藏
  • 关注

原创 在spark中配置历史服务器

此文件一般位于 $SPARK_HOME/conf 目录下。若该文件不存在,可从 spark-defaults.conf.template 复制一份。1. 配置 spark-defaults.conf 文件。

2025-05-13 14:11:37 524

原创 final shell的配置

我们在从本机开始去连接虚拟机时,都是通过ip地址来连接的,不方便。我们可以通过hostname的方式来访问。ping hadoop100或者是ping 192.168.10.100都应该可以通。5. 找到刚才建立的连接,点击连接。主机:192.168.10.100,或者是配置hosts之后的主机名。1. 点击开始安装,安装到D盘。安装目录没有中文,没有空格。输入对应主机的用户名密码。2. 启动finalshell,新建。2. 使用ping 命令来检查。1. 修改hosts文件。来,我们一起操作一下。

2025-05-13 09:59:04 307

原创 如何搭建spark yarn模式的集群

硬件准备:准备多台服务器作为集群节点,至少包含 1 个主节点(Master Node)和多个工作节点(Worker Node)。软件准备:确保所有节点安装相同版本的 Linux 操作系统(如 CentOS 7),并且各节点之间网络互通,可通过ping命令测试节点间的网络连接。下载 JDK:从 Oracle 官网下载适合 Linux 系统的 JDK 安装包(如 JDK 1.8),将安装包上传至所有节点的指定目录(如/opt/software)。解压安装:在所有节点上执行以下命令解压 JDK 安装包:​。

2025-05-13 09:55:38 235

原创 final shell的配置

我们在从本机开始去连接虚拟机时,都是通过ip地址来连接的,不方便。我们可以通过hostname的方式来访问。ping hadoop100或者是ping 192.168.10.100都应该可以通。5. 找到刚才建立的连接,点击连接。主机:192.168.10.100,或者是配置hosts之后的主机名。1. 点击开始安装,安装到D盘。安装目录没有中文,没有空格。输入对应主机的用户名密码。2. 启动finalshell,新建。2. 使用ping 命令来检查。1. 修改hosts文件。来,我们一起操作一下。

2025-05-13 09:51:54 218

原创 配置集群-日志聚集操作

日志聚集是指将分布式集群中各个节点上的应用程序日志收集并汇总到一个集中的位置,方便后续的查看、分析和管理。在 Hadoop 和 Spark 集群中,日志聚集是一项重要的功能,下面分别介绍如何在这两个集群中配置日志聚集操作。1. 配置 yarn-site.xml。Hadoop 集群日志聚集配置。

2025-05-13 09:49:58 166

原创 配置集群-编写hadoop启动停止脚本

为了方便启动和停止 Hadoop 集群,可以编写脚本实现一键式操作。以下分别给出 Linux 系统下启动和停止 Hadoop 集群的脚本示例,同时包含了脚本代码和详细解释。

2025-05-13 09:47:39 242

原创 Spark集群搭建-Standalone

9.启动SPARK集群。进入到hadoop100机器,切换目录到/opt/module/spark-standalone/sbin下,运行命令 ./start-all.sh。进入/opt/module/把解压的内容重命名一下,mv spark-3.1.1-bin-hadoop3.2/ spark-standalone。注意,这里不要省略./,它表示的是当前目录下的start-all命令,如果省略了./,它就会先去环境变量PATH中指定的目录来找这个命令。

2025-05-13 09:42:53 375

原创 RDD基本介绍

容错弹性:RDD 具备容错能力,当某个分区的数据丢失时,Spark 可以根据 RDD 的血统信息(即 RDD 的生成过程)重新计算该分区的数据,而不需要重新计算整个 RDD。从外部数据源读取:可以从 HDFS、本地文件系统、HBase、Cassandra 等外部数据源读取数据创建 RDD。分布式:RDD 的数据是分布在集群的多个节点上的,这样可以充分利用集群的计算资源,实现并行计算,提高数据处理的效率。数据集:RDD 是一个只读的、可分区的数据集,它可以包含各种类型的数据,如整数、字符串、自定义对象等。

2025-05-13 09:40:38 195

原创 mapreduce补充

mapreduce补充。

2025-05-13 09:37:15 86

原创 mapreduce打包运行

mapreduce打包运行。

2025-05-12 13:18:02 105

原创 自定义分区器

2025-05-12 13:17:05 97

原创 数据压缩spark

数据压缩spark。

2025-05-12 13:16:32 112

原创 hadoop的序列化和反序列化

2025-05-12 13:15:05 117

原创 数据压缩spark

数据压缩spark。

2025-05-12 13:13:54 91

原创 设置不同的任务队列

设置队列。

2025-05-12 13:13:12 104

原创 tool接口-问题说明

tool接口。

2025-05-12 13:12:31 139

原创 tool接口-代码实现

代码实现。

2025-05-12 13:11:38 111

原创 序列化与反序列化

2025-05-12 13:11:03 131

原创 yarn基本介绍

2025-05-12 13:10:24 99

原创 hdfs-客户端操作-文件上传

总结:获取hadoop集群的文件系统和关闭资源是一个固定的写法,重点在于路径。主要内容:在一个新目录里上传文件。去浏览器看上传是否成功。

2025-05-12 13:08:22 168

原创 java-hdfs-API-设置副本数量

主要内容:副本数量默认为3个,我们把它改成两个。

2025-05-12 13:05:45 116

原创 mapreduce-理解map-reduce

Map 任务读取输入分片的数据,对其进行解析和处理,然后输出中间键值对。例如,在一个单词计数的应用中,输入数据是一系列的文本文件,Map 任务会逐行读取文件内容,将每行文本拆分成单词,并为每个单词生成一个键值对,键是单词,值通常为 1,表示该单词出现了一次。功能:Map 阶段的主要任务是将输入数据进行解析和转换,把输入的大规模数据集拆分成多个小的数据块,并对每个数据块进行独立处理,生成一系列的键值对(Key - Value Pairs)。

2025-05-12 11:20:32 185

原创 配置集群-日志聚集操作

日志聚集是指将分布式集群中各个节点上的应用程序日志收集并汇总到一个集中的位置,方便后续的查看、分析和管理。在 Hadoop 和 Spark 集群中,日志聚集是一项重要的功能,下面分别介绍如何在这两个集群中配置日志聚集操作。版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。原文链接:https://blog.youkuaiyun.com/a1237564537/article/details/147634175。Hadoop 集群日志聚集配置。

2025-05-12 11:18:31 357

原创 配置集群-编写hadoop启动停止脚本

2. 启动 HDFS:使用 start-dfs.sh 脚本启动 HDFS 服务,它会启动 NameNode、DataNode 和 SecondaryNameNode。5. 启动 MapReduce 历史服务器:使用 mr-jobhistory-daemon.sh 脚本启动 MapReduce 历史服务器,方便查看作业历史记录。4. 启动 YARN:使用 start-yarn.sh 脚本启动 YARN 服务,它会启动 ResourceManager 和 NodeManager。

2025-05-12 11:16:54 239

原创 spark和hadoop的区别与联系

四、spark的运行模式。三、spark内置模块。

2025-04-21 09:44:29 316

原创 案例-流量统计

2.在com.example.flow下建四个Java类3.flowBean。1.建一个data目录,在data下建log.txt文件。输入手机号码 上行流量 下行流量。

2025-04-21 07:59:58 236

原创 MapReduce

以下是其工作原理的详细解析。- 调用用户编写的 `map()` 函数,将输入键值对(如 `<行号, 行内容>`)转换为中间键值对(如 `<单词, 1>`)。本地执行类似 Reduce 的合并操作(如对 `<单词, [1,1]>` 合并为 `<单词, 2>`),减少网络传输量。Reduce 任务将来自不同 Map 的同一分区数据合并,按键分组(如 `<单词, [1,1,1]>`)。Reduce 对每个单词的 `[1,1,...]` 求和,得到 `<word, total_count>`。

2025-04-01 07:45:52 386

原创 hadoop集群的常用命令

hdfs dfs -rm -r /hdfs/path/directory # 递归删除目录。hdfs dfs -setrep -w 3 /path/file # 修改副本数为 3。hdfs dfs -rm /hdfs/path/file # 删除文件。hdfs dfs -du -h /path # 查看目录大小。hdfs dfs -df -h # 查看整体空间。- **检查 HDFS 空间使用**- **查看运行中的应用列表**- **复制/移动文件**- **查看文件内容**

2025-04-01 07:31:49 421

原创 Linux配置虚拟机

步骤一:步骤二:步骤三:步骤四:finalshell。

2025-03-03 19:19:20 165

原创 Linux编辑器

1.三种模式2.图例3.wq4.光标的使用。

2025-02-24 13:25:17 308

原创 Linux基础摘要 命令及实例

1.cat 命令 more命令。4.追加>> 覆盖>

2025-02-24 13:21:24 216

原创 Linux基础学习

1.linux基本命令。

2025-02-24 13:16:16 421

原创 Linux操作系统命令

1.Linux和centos操作系统命令。2.linux的文件系统。5.路径中的特殊字符。

2025-02-24 13:11:21 254

原创 Scala思维导图

2024-12-30 08:11:56 152

原创 Scala课堂小结

2024-12-25 14:53:09 291

原创 Scala隐式转换作用域

2024-12-25 14:51:17 173

原创 Scala课堂小结

(一)数组:1.不可变数组2.创建数组。

2024-12-25 14:46:55 658

原创 Scala迭代更新

在Scala中,迭代器(Iterator)是一种用于遍历集合(如数组、列表、集合等)的元素而不暴露其底层表示的对象。迭代器提供了一种统一的方法来访问集合中的元素,而无需关心集合的具体实现。在Scala中,可以通过调用集合的`iterator`方法或`toIterator`方法来获取一个迭代器。迭代器是Scala集合框架中非常重要的一部分,它们提供了一种高效且灵活的方式来遍历和处理集合中的元素。next(): 返回迭代器的下一个元素,并移动到下一个元素。1.hasNext: 检查迭代器是否还有更多元素。

2024-12-25 14:44:22 810

原创 Scala泛型

idea实例。

2024-12-25 14:38:33 460

原创 Scala课堂小结

Map是无序,要对其进行排序,要先把数组转成序列。List,Array。// W:表示一个非字(不是一个字 eg:空格,逗号,句号……//2.把字符串拆分为一个一个的单词,保存到数组。//3.统计每个单词出现的次数。//5.把结果写到一个文件中。2.把字符串拆分成一个一个的单词。// \\:表示正则表达式。1.读取文件,得到很长的字符串。object 全文单词统计 {3.统计每个单词出现的次数。5.把结果写入到一个文件中。//1.读入文件内容。// W+:多个非字。

2024-12-25 14:36:50 1089

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除