一、前言
Terasort可以测试Kubernetes平台对于Spark计算过程的如下需求的支持:
从HDFS读取能力
向HDFS写入能力
shuffle中网络读写能力
本文使用如下terasort的实现,包括TeraGen、TeraSort和TeraValidate:
转载自https://blog.youkuaiyun.com/cloudvtech
二、准备工作
2.1 获取代码
git clone https://github.com/ehiggs/spark-terasort.git
2.2 修改编译配置
指定合适的spark和scala版本
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
<scala.version>2.11.8</scala.version>
<scala.binary.version>2.11</scala.binary.version>
<spark.version>2.1.1</spark.version>
</properties>
2.3 编译
mvn install
ls target/
archive-tmp generated-sources maven-status spark-terasort-1.1-SNAPSHOT-jar-with-dependencies.jar
classes jars site spark-terasort-1.1-SNAPSHOT-javadoc.jar
classes.440875732.timestamp maven-archiver spark-terasort-1.1-SNAPSHOT.jar surefire
转载自https://blog.youkuaiyun.com/cloudvtech
三、运行
3.1 在hdfs建立数据目录

本文详细介绍了如何在Kubernetes集群上利用Spark进行Terasort测试,涵盖从HDFS读取、写入及shuffle网络能力。首先,文章提供了Terasort项目的源码链接,接着阐述了准备工作,包括获取和编译代码,设置合适的Spark和Scala版本。然后,通过创建数据目录、设置namespace和权限来准备运行环境。最后,详细列出运行TeraGen、TeraSort和TeraValidate的步骤,包括Spark提交参数,并展示了运行过程的监控图表和资源使用情况。
最低0.47元/天 解锁文章
1431

被折叠的 条评论
为什么被折叠?



