- 博客(76)
- 收藏
- 关注
原创 Spark 中dtypes函数
在Spark SQL中,dtypes函数用于获取DataFrame或Dataset中各列的数据类型信息。它返回一个由列名和数据类型组成的元组列表,其中每个元组表示一列的名称和相应的数据类型。
2024-06-05 11:00:00
438
原创 Esxi的安装问题处理: Failed to verify signatures of the following vib(s)
在安装esxi的时候报错如下图:自己在安装过程中遇到点问题 Failed to verify signatures of the following vib(s) 一番查找,只要在bios里面关闭 Security boot 就可以解决。
2024-06-04 18:38:23
1199
原创 Spark中广播的使用
在PySpark中,""是一种注释语法,用于提示Spark优化器在执行查询计划时使用广播变量。广播变量是将数据广播到集群中的所有节点,以便在计算过程中能够更高效地访问数据。在Spark中,默认情况下,优化器会根据数据大小和操作类型来自动选择是否使用广播变量。但是,通过使用"/*+ broadcast(a) */"注释,你可以显式地指示Spark将特定的DataFrame或RDD作为广播变量使用,而不依赖于自动优化。在注释中,"a"是要广播的DataFrame或RDD的名称。
2024-06-04 18:25:35
982
原创 Spark中把所有的列转换成string操作
这段代码使用了Spark SQL中的select函数和列表推导式来选择DataFrame中的所有列,并将它们的数据类型转换为字符串类型。最终,该代码将选择DataFrame中的所有列,并将它们的数据类型转换为字符串类型,以便后续的数据处理和分析。函数,用于创建列对象。如果您在代码中没有包含这个导入语句,请确保添加它,以便正确执行代码。
2024-06-04 18:18:02
898
3
原创 在Spark SQL中,fillna函数
在Spark SQL中,fillna函数用于填充DataFrame或Dataset中的缺失值(NULL或NaN)。它可以根据指定的列名和值来替换缺失值,以便进行数据清洗和预处理。在上述示例中,首先创建了一个包含姓名、年龄和身高的DataFrame,并且其中包含了一些缺失值(用None表示)。然后,使用fillna函数将缺失值替换为指定的值。在本例中,我们将年龄的缺失值替换为0,将身高的缺失值替换为0.0。填充后得到的DataFrame存储在filled_df变量中。最后,使用show。
2024-06-04 18:06:31
704
原创 Spark 中repartition和coalesce的区别
在Apache Spark中,和coalesce是两种用于重新分区RDD或DataFrame的转换操作。它们的主要区别在于它们对分区数量的处理方式和使用场景。repartition 是 coalesce shuffle为True的实现。两者使用的场景。首先,repartition 的shuffle比较慢, coalesce 虽然不需要shuffle,但是,指定coalesce保留的partition数目后,只有相应数目的executor-cores 进行合并,其他的核会进行空计算,导致机器利用效率比较低。
2024-06-04 10:10:17
1306
2
原创 Spark 性能调优——分布式计算
分布式计算的精髓,在于如何把抽象的计算流图,转化为实实在在的分布式计算任务,然后以并行计算的方式交付执行。今天这一讲,我们就来聊一聊,Spark 是如何实现分布式计算的。分布式计算的实现,离不开两个关键要素,一个是进程模型,另一个是分布式的环境部署。接下来,我们先去探讨 Spark 的进程模型,然后再来介绍 Spark 都有哪些分布式部署方式。
2024-06-04 09:28:51
690
原创 Spark的性能调优——RDD
参数是函数、或者返回值是函数的函数,我们把这类函数统称为“高阶函数”(Higher-order Functions)。换句话说,这 4 个算子,都是高阶函数。// 读取文件内容// 以行为单位做分词// 把RDD元素转换为(Key,Value)的形式// 按照单词做分组计数// 打印词频最高的5个词汇在 RDD 的编程模型中,一共有两种算子,Transformations 类算子和 Actions 类算子。
2024-06-03 13:42:17
737
原创 mysql快速生成百万级测试数据
最近在跟着学习一套开源的电商项目,建了一个项目库所需的数据库。表是有了,但是数据没有。一个电商项目怎么能没有多一点的数据呢,于是决定自己一个表造个几十万数据(总共71个表)。在数据库服务器上执行命令,生成内容为1~100000的文件(修改为自己的文件名称(但是路径不要修改)。登录mysql,并执行。后修改为自己的库名,
2024-05-31 17:27:43
1080
原创 Linux直接在命令行中向文件中写入大段文本(保留格式)
在 Unix-like 操作系统的 Shell 编程中,文件重定向是一项基础且功能强大的特性,它允许我们将命令的输入和输出流向不同的地方。特别是在脚本编写和自动化任务中,重定向变得尤为重要。本文将介绍两种常用的重定向用法——和,以及它们的功能和原理。在 Bash 中,我们通常看到和>>是覆盖重定向。如果目标文件已存在,它会被新内容覆盖。>>是追加重定向。新内容会被添加到目标文件的末尾,不影响原有内容。
2024-05-31 17:03:40
541
原创 如何在CentOS中合理划分磁盘空间以优化系统性能
在进行CentOS系统的安装和配置时,合理划分磁盘空间是确保系统性能、安全性和易于管理的关键步骤。本文将探讨如何根据系统的硬件配置和预期用途来规划分区方案,以及为什么要将特定目录(如/var/tmp/usr等)单独分区。
2024-05-31 14:50:49
1204
原创 Centos给普通用户添加sudo命令权限
找到root ALL=(ALL) ALL。lbs为用给予sudo执行权限的用户名。这一行,即如下图标出红线的一行。
2024-05-31 14:43:10
888
原创 如何在centos中关闭swap分区
Swap 分区是 Linux 系统中用于扩展物理内存的一种机制。在物理内存耗尽时,系统可以将部分数据暂时存储到硬盘上的 Swap 空间。然而,在某些性能敏感的应用场景,如实时数据处理或高频交易系统中,使用 Swap 可能导致不可预测的延迟。在这些情况下,完全关闭 Swap 可以帮助保持一致的性能。本文将介绍如何在 CentOS 系统中关闭 Swap 分区,并讨论这样做的潜在影响。关闭 Swap 分区是一种优化高性能应用的方法,可以减少因硬盘访问导致的延迟,从而提高应用的响应速度和可预测性。
2024-05-31 14:23:30
2379
1
原创 基于ES安装IK分词插件
IK分词器插件是为Elasticsearch设计的中文分词插件,由Elasticsearch的官方团队之外的开发者medcl开发。它主要针对中文文本的分词需求,提供了较为准确的中文分词能力。智能分词:IK分词器采用基于词典加双向最大匹配算法的分词策略,能够较为智能地处理中文文本。支持自定义词典:用户可以根据自己的需求,向IK分词器中添加自定义词典,以此来提高分词的准确性。多种分词模式:会将文本做最细粒度的拆分,例如“中华人民共和国国歌”会被拆分为“中华人民共和国, 国歌”。ik_smart。
2024-05-31 13:58:56
884
原创 群晖各个型号之间有什么特色和区别
都支持24个CPU线程,其它的大部分型号都最多只支持8个线程(DS918、DS920)或16个线程,如果你的CPU核心线程都多的情况下可能会有很多闲置核心,因为他们可能只调用8条线程。当然随着黑群晖系统的迭代更新可能这些限制会被开放,查询你的黑群晖支持多少线程可以看一下这里这类官方硬件自带GPU的产品型号可以调用4-10代intel核显进行转码操作,可以减少低端型号转码时cpu的占用。
2024-02-05 15:32:05
34146
原创 只适用于ARPL和其它USB引导写盘
打开后一般正常情况下你只要勾选第1步骤和点 写入 也不需要你操作什么别的,基本都是全自动选的,参考图片很简单的。如果没有出现你的u盘可以点。拔掉所有u盘 可移动磁盘或者usb存储设备,关掉所有磁盘软件例如DiskGenius之类的软件,当然你不做也行出问题不要来找我就ok。打开下载好的压缩包,双击打开USB.exe。2.看一下下边校验是否匹配,不匹配要重新刷。会弹出以下几种窗口直接 是 就行。1.注意:有提示镜像定稿完成!
2024-02-05 14:36:57
452
原创 iLO 安装中文固件包
前言安装中文版本的安装包,需要把对应的ilo安装到固定的版本上,ilo的版本是2.70。必须是这个版本;如果不是这个版本就需要刷到对应的ilo版本下载对应的固件包。到这个界面选择文件,然后点击上载。以上就是刷系统包的步骤。
2024-01-23 17:25:45
711
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人