- 博客(3)
- 收藏
- 关注
原创 partitionBy()的解释
partitionBy() 是 Spark RDD 的一个方法,用于对 RDD 进行重新分区。其主要作用是将 RDD 中的数据按照指定的分区方式进行重新分区,并返回一个新的分区后的 RDD。在 Spark 中,默认情况下使用哈希分区(Hash Partitioning)对 RDD 进行分区。但有时候我们需要自定义分区方式来更好地满足业务需求。这时候,我们可以使用 partitionBy() 方法来进行自定义分区。
2023-03-16 11:03:52
1432
原创 hadoop 运行jar包
我们在eclipse 打包好jar包后需要上传到udantu系统。我们用Xshell 工具上传,步骤如下图所示:这时候jar包已经上传成功了,在udantu查看jar包的位置现在就可以运行jar包了,命令如下:
2022-11-16 18:11:10
4024
原创 hadoop基础:通过 Shell 命令访问 HDFS
HDFS Shell 是由一系列类似 Linux Shell 的命令组成的。命令大致可分为操作命令、管理命令、其他命令三类。
2022-10-24 15:28:25
4579
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人