Kubernetes与大数据之四：基于Kubernetes的Spark运行Terasort(50GB data)

最新推荐文章于 2025-12-05 01:46:45 发布

原创

最新推荐文章于 2025-12-05 01:46:45 发布 · 842 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#Kubernetes #Spark #大数据 #HDFS

本文详细介绍了如何在Kubernetes集群上利用Spark进行Terasort测试，涵盖从HDFS读取、写入及shuffle网络能力。首先，文章提供了Terasort项目的源码链接，接着阐述了准备工作，包括获取和编译代码，设置合适的Spark和Scala版本。然后，通过创建数据目录、设置namespace和权限来准备运行环境。最后，详细列出运行TeraGen、TeraSort和TeraValidate的步骤，包括Spark提交参数，并展示了运行过程的监控图表和资源使用情况。

一、前言

Terasort可以测试Kubernetes平台对于Spark计算过程的如下需求的支持：

从HDFS读取能力

向HDFS写入能力

shuffle中网络读写能力

本文使用如下terasort的实现，包括TeraGen、TeraSort和TeraValidate：

https://github.com/ehiggs/spark-terasort

转载自https://blog.youkuaiyun.com/cloudvtech

二、准备工作

2.1 获取代码

git clone https://github.com/ehiggs/spark-terasort.git

2.2 修改编译配置

指定合适的spark和scala版本

<properties>
  <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
  <scala.version>2.11.8</scala.version>
  <scala.binary.version>2.11</scala.binary.version>
  <spark.version>2.1.1</spark.version>
</properties>

2.3 编译

mvn install

ls target/
archive-tmp                  generated-sources  maven-status                    spark-terasort-1.1-SNAPSHOT-jar-with-dependencies.jar
classes                      jars              site                            spark-terasort-1.1-SNAPSHOT-javadoc.jar
classes.440875732.timestamp  maven-archiver    spark-terasort-1.1-SNAPSHOT.jar  surefire

转载自https://blog.youkuaiyun.com/cloudvtech