使用Google Cloud Dataproc创建Hadoop集群并运行作业教程
概述
本教程将指导您如何使用Google Cloud Platform的Dataproc服务创建Hadoop集群并运行Spark作业。Dataproc是一项完全托管的云服务,可简化Apache Spark和Apache Hadoop集群的创建和管理过程。
准备工作
启用Cloud Dataproc API
在开始创建集群之前,需要确保Cloud Dataproc API已启用:
- 在Google Cloud控制台中,导航至"API和服务" > "库"
- 搜索"Cloud Dataproc API"
- 如果API尚未启用,点击"启用"按钮
创建Dataproc集群
集群配置步骤
- 在控制台中导航至"Dataproc" > "集群"
- 点击"创建集群"按钮
- 配置以下基本参数:
- 名称:example-cluster
- 区域:global
- 可用区:us-central1-a
技术说明:可用区是一个特殊的多区域命名空间,可以将实例部署到所有Google Compute区域。您也可以指定特定区域(如us-east1或europe-west1)来隔离资源。
- 其他参数保持默认值
- 点击"创建"按钮
集群创建过程需要几分钟时间,状态将从"配置中"变为"运行中"。
提交Spark作业
作业配置
- 导航至"Dataproc" > "作业"
- 点击"提交作业"按钮
- 配置以下参数:
- 集群:example-cluster
- 作业类型:Spark
- 主类或JAR:org.apache.spark.examples.SparkPi
- 参数:1000(设置任务数量)
- JAR文件:file:///usr/lib/spark/examples/jars/spark-examples.jar
- 点击"提交"按钮
技术原理
此Spark作业使用蒙特卡洛方法估算π值:
- 在坐标系中生成x,y点,模拟单位正方形内切圆
- 输入参数(1000)决定生成的点对数量
- 点对数量越多,估算精度越高
- Dataproc工作节点并行化计算过程
查看作业输出
- 在作业列表中点击作业ID
- 勾选"自动换行"或向右滚动查看完整输出
- 输出中将显示计算出的π近似值
集群扩展(可选)
调整工作节点数量
- 返回"Dataproc" > "集群"视图
- 点击集群名称"example-cluster"
- 选择"配置"标签页
- 点击"编辑"按钮
- 将"工作节点"数量修改为4
- 点击"保存"按钮
集群将自动扩展,您可以观察到虚拟机实例数量的变化。
重新运行作业
扩展集群后,可以按照相同步骤重新提交Spark作业,体验扩展后的计算能力。
总结
通过本教程,您已经掌握了:
- 在Google Cloud Platform上创建Dataproc集群
- 提交并运行Spark作业
- 查看作业输出结果
- 动态调整集群规模
Dataproc服务简化了大数据处理环境的搭建和管理,使您能够专注于数据分析而非基础设施维护。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考