自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(76)
  • 收藏
  • 关注

原创 5.12转换分子

2025-05-13 13:56:28 115

原创 Spark集群搭建之Yarn模式

2025-05-13 13:55:39 185

原创 idea写spark程序

2025-05-13 13:54:57 145

原创 从0开始的Spark - local模型

2025-05-13 13:54:25 114

原创 HDFS文件和文件夹的判断

2025-05-13 13:53:43 101

原创 YARN的配置文件

2025-05-13 13:52:36 152

原创 配置历史服务器

2025-05-13 13:51:45 100

原创 配置并克隆虚拟机

2025-05-13 13:50:28 112

原创 HDFS文件更名和移动

2025-05-13 13:49:34 95

原创 打包集群实操

2025-05-13 13:48:54 121

原创 案例数据清洗

val cleanedLines = lines.filter(line => { // 使用filter算子。// 创建 SparkContext 对象。// 创建 SparkConf 对象。// 停止 SparkContext。// 读取文本文件,创建 RDD。// 输出清洗后的数据。

2025-05-13 13:48:22 284

原创 5.12集群

2025-05-13 11:57:32 90

原创 YARN 命令行工具

数据仓库工具,可通过 YARN 执行 Hive 查询。:基于 YARN 运行的分布式计算框架,通过。:流处理框架,支持在 YARN 上运行。

2025-05-12 11:09:25 710

原创 Yarn-概述

数据仓库工具,可通过 YARN 执行 Hive 查询。:基于 YARN 运行的分布式计算框架,通过。:流处理框架,支持在 YARN 上运行。

2025-05-12 11:08:35 350

原创 Yarn-tool接口

YARN(Yet Another Resource Negotiator)是 Hadoop 的资源管理系统,提供了丰富的命令行工具(YARN CLI)和编程接口(Java API)来管理和监控集群资源。

2025-05-12 11:07:36 247

原创 MapReduce打包运行

通过以上步骤,你可以成功打包并运行 MapReduce 程序。关键是确保 JAR 文件包含所有依赖,并正确设置输入输出路径。MapReduce 程序通常需要打包为 JAR 文件后提交到 Hadoop 集群运行。这将生成一个包含所有依赖的 JAR 文件(通常位于。

2025-05-12 11:06:43 257

原创 HDFS概述

HDFS概述。

2025-05-12 11:04:32 327

原创 结构化数据处理

【代码】结构化数据处理。

2025-05-12 11:03:25 211

原创 RDD的自定义分区器-案例

在 Spark 中,分区器(Partitioner)决定了 RDD 中键值对(K,V)在集群中的分布方式,对数据处理的性能和负载均衡至关重要。通过合理设计自定义分区器,可以优化 Spark 作业的性能和稳定性,特别是在处理大规模数据和复杂业务场景时。直接 Join 会导致 Shuffle,且某些地区订单量过大(如北京、上海),造成数据倾斜。数据量随时间增长,传统哈希分区会导致每个分区包含不同月份的数据,增加按月统计的开销。当内置分区器无法满足需求时(如处理特定业务规则或数据倾斜问题),可以自定义分区器。

2025-05-12 11:01:58 1080

原创 自定义分区器-基础

在 Spark 中,分区器(Partitioner)决定了 RDD 中键值对(K,V)在集群中的分布方式,对数据处理的性能和负载均衡至关重要。通过合理设计自定义分区器,可以优化 Spark 作业的性能和稳定性,特别是在处理大规模数据和复杂业务场景时。当内置分区器无法满足需求时(如处理特定业务规则或数据倾斜问题),可以自定义分区器。

2025-05-12 11:00:41 393

原创 Spark缓存

在 Spark 中,缓存(Caching)是优化计算性能的关键技术。通过缓存中间结果,可以避免重复计算,显著提升迭代计算和交互式查询的效率。合理使用缓存是 Spark 性能优化的核心手段之一。通过选择合适的存储级别、监控缓存使用情况,并结合检查点机制,可以显著提升 Spark 应用的执行效率。对于长依赖的 RDD,使用检查点将数据写入可靠存储(如 HDFS),避免 lineage 过长导致的重新计算开销。

2025-05-12 10:59:30 686

原创 Spark处理过程-转换算子和行动算子

理解转换算子和行动算子的区别,以及 Spark 的惰性计算机制,是编写高效 Spark 程序的基础。行动算子用于触发实际计算,并返回结果或执行副作用操作(如保存数据)。调用行动算子时,Spark 会执行之前记录的所有转换操作。,它们是构建 Spark 应用的核心概念。理解这两种算子的区别和用法,对编写高效的 Spark 程序至关重要。,即调用转换算子时不会立即执行,而是记录计算步骤(DAG),直到遇到行动算子才会触发实际计算。转换算子用于对 RDD 或 DataFrame 进行转换,生成一个新的数据集。

2025-05-12 10:57:53 499

原创 运行Spark程序-在shell中运行

如何搭建hadoop的集群搭建 Hadoop 集群需要准备多台服务器,并按照特定步骤配置。bash(所有节点):bash(所有节点):bash。

2025-05-12 08:45:25 1161

原创 如何搭建hadoop集群

搭建 Hadoop 集群需要准备多台服务器,并按照特定步骤配置。bash(所有节点):bash(所有节点):bash。

2025-05-12 08:43:00 1068

原创 在idea中写spark

3. 创建Maven或Gradle项目:打开IDEA,选择“Create New Project”,选择Maven或Gradle项目。Scala是编写Spark程序常用语言,下载并安装Scala,配置 SCALA_HOME 环境变量,将 bin 目录添加到 PATH 中。1. 编写Spark程序:在 src/main/scala 目录下创建Scala类,编写Spark程序。2. 安装IDEA:安装并打开IDEA,确保安装了Scala插件(可在IDEA的插件市场搜索并安装)。

2025-04-28 19:51:37 455

原创 如何搭建spark yarn模式的集群

也可以提交Spark应用程序,让YARN自动分配资源并启动Spark执行器,如 spark - submit --class your - main - class --master yarn your - jar - file.jar。- 配置 core-site.xml 、 hdfs-site.xml 、 mapred -site.xml 和 yarn -site.xml 等文件,设置相关参数,如文件系统路径、节点地址等。- 确保集群中各节点安装了Java,并配置好环境变量。

2025-04-28 19:50:25 195

原创 spark和hadoop的区别与联系

Apache Spark 和 Apache Hadoop 是大数据处理领域中两个重要的开源框架,它们既有区别又有联系,以下是详细介绍:

2025-04-21 08:26:12 468

原创 mapreduce的工作原理

mapreduce的工作原理。

2025-03-31 20:15:41 348

原创 Hadoop集群的常用命令

hadoop集群的常用命令。

2025-03-31 20:13:20 455

原创 虚拟机IP设置

的IP和路由配置是虚拟化环境中网络设置的重要部分。以下是关于虚拟机IP和路由配置的基本概念、常见场景以及配置方法的详细介绍。

2025-03-03 19:17:26 2090

原创 Linux的基本命令

【代码】Linux的基本命令。

2025-02-25 10:30:27 310

原创 vi的使用

vi的使用

2025-02-25 10:28:34 102

原创 如何安装vm和centos

选择 “安装程序光盘映像文件(ISO)”,点击 “浏览” 找到你下载好的 CentOS 镜像文件,然后点击 “下一步”。选择安装位置,默认安装在系统盘,你也可以点击 “更改” 选择其他路径,然后点击 “下一步”。软件选择:根据你的需求选择安装的软件包,如 “最小安装” 或 “带 GUI 的服务器”。在 “新建虚拟机向导” 中,选择 “典型(推荐)”,然后点击 “下一步”。选择系统安装语言,如 “中文(简体)”,然后点击 “继续”。输入虚拟机的名称和选择虚拟机的存储位置,点击 “下一步”。

2025-02-25 10:27:25 271

原创 java的string类

30、String replaceAll(String regex,String replacement):用replacement替换所有的regex匹配项,regex很明显是个正则表达式,replacement是字符串。public String(byte[] bytes,String charsetName)':通过使用指定的字符集解码当前参数中的字节数组来构造新的String。6、int compareTo(String other):比较字符串大小,区分大小写,按照Unicode编码值比较大小;

2024-12-30 08:13:27 623

原创 Python的faiss的使用

Faiss 能够在几毫秒内搜索数亿个向量,这使得它非常适合于实现近似最近邻(ANN)搜索,这在许多应用中都非常有用,比如图像检索、推荐系统和自然语言处理。使用 Faiss 提供的索引类型之一来构建索引。这些向量可以是任何维度的,但通常它们是从特征提取器中得到的,比如深度学习模型的输出。虽然 Python 的垃圾回收机制通常会自动处理内存,但如果你在处理大量数据时,可能希望手动清理索引以释放内存。注意:安装 GPU 版本时,请确保你的系统已经安装了 CUDA,并且 CUDA 的版本与 Faiss 兼容。

2024-12-30 07:50:59 581

原创 Python的struct

它允许你将 Python 中的数据打包成二进制格式,或者将二进制数据解包成 Python 数据类型。模块非常强大,适用于各种需要处理二进制数据的场景。的第一个参数是一个格式字符串,用于指定要打包的数据的类型和顺序;后面的参数是要打包的数据。的第一个参数是格式字符串,后面是要解包的二进制数据(通常是字节对象)。方法可以计算格式字符串指定的数据在内存中的大小(以字节为单位)。是 Python 中的一个内建模块,用于处理 C 语言。方法将二进制数据解包成 Python 数据类型。python复制代码。

2024-12-29 22:48:30 667

原创 JSP的详解

在JSP中,动作元素(也叫动作标签)用于执行特定的任务或操作,例如包含其他页面、转发请求、设置属性等。动作标签可以在JSP页面中以 XML 风格的标签形式使用,让开发者可以更方便地管理和控制页面的行为。JSP的主要功能是简化服务器端的Web开发,尤其是对于HTML、XML等页面内容的动态生成。标签库指令:<%@ taglib uri="..." prefix="..." %> 用于引入自定义标签库(学习JSTL时会使用到)。页面指令:<%@ page ... %> 用于设置JSP页面属性。

2024-12-26 09:54:00 200

原创 仓颉编程语言

在仓颉语言中,标识符是用户定义的名称,用于变量、函数、类等实体的标记。良好的标识符命名规则是编写可维护代码的基础。为了代码的可读性,推荐使用有意义的标识符名称,例如 userAge、productPrice,并采用驼峰命名法。变量和常量是程序的基本组成部分,仓颉语言使用 let 定义变量,const 定义常量。标识符区分大小写(Variable 和 variable 是不同的标识符)。// class 是关键字。// 不能以数字开头。// 非法的标识符(会导致编译错误)1. 变量与常量的定义。

2024-12-26 09:51:39 488

原创 java的进阶学习·

很多功能别人都给我们实现好了,我们只需要直接拿过来使用即可,简化了我们自己的编写过程,减少了我们的代码量。c.调用成员(成员变量,成员方法) -> 想要使用哪个类中的成员,就用哪个类的对象去点哪个成员。b.特殊:如果调用的成员带static关键字,我们不需要new,我们直接类名点即可。需求:用代码去描述一个手机类,在测试类中为手机类中的属性赋值,并且调用手机类中的功能。至于我们使用的功能人家怎么实现的,我们不需要关心,我们只需要知道怎么使用即可。System.out.println("人要干饭");

2024-12-26 09:49:33 325

原创 网络安全的学习

栈溢出攻击 :问题:寄存器+堆栈式的设计,而这个堆栈中,既包含了程序运行各个函数栈帧中的变量数据等信息,还保存了函数调用产生的返回地址。网络安全主要分别以下几种:1 web安全 2 系统安全 3二进制逆向 4 红蓝对抗 5 密码学 6 AI安全 7 移动(ios,Anroid)安全。在Linux上,经常叫获得Root权限,手机Root也是这个意思。整数溢出攻击 :16 位short: 0111 1111 1111 1111 +1 = 1000 0000 0000 0000。

2024-12-23 11:36:25 161

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除