初学者idf-优快云博客

原创 partitionBy()的解释

partitionBy() 是 Spark RDD 的一个方法，用于对 RDD 进行重新分区。其主要作用是将 RDD 中的数据按照指定的分区方式进行重新分区，并返回一个新的分区后的 RDD。在 Spark 中，默认情况下使用哈希分区（Hash Partitioning）对 RDD 进行分区。但有时候我们需要自定义分区方式来更好地满足业务需求。这时候，我们可以使用 partitionBy() 方法来进行自定义分区。

2023-03-16 11:03:52 1532

原创 hadoop 运行jar包

我们在eclipse 打包好jar包后需要上传到udantu系统。我们用Xshell 工具上传，步骤如下图所示：这时候jar包已经上传成功了，在udantu查看jar包的位置现在就可以运行jar包了，命令如下：

2022-11-16 18:11:10 4152

原创 hadoop基础：通过 Shell 命令访问 HDFS

HDFS Shell 是由一系列类似 Linux Shell 的命令组成的。命令大致可分为操作命令、管理命令、其他命令三类。

2022-10-24 15:28:25 4794 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人