spark 大数据 LR测试

最新推荐文章于 2025-08-12 17:45:11 发布

转载最新推荐文章于 2025-08-12 17:45:11 发布 · 105 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/suanec/p/6169895.html

文章标签：

#大数据 #ui

本文提供了一个使用Spark进行大数据处理的具体配置示例，包括如何设置Spark任务的多个参数，如内存分配、执行器数量等，并展示了如何提交Spark作业。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#!/bin/bash

size="120Y*10W"
date1=`date +%F_%H-%M-%S`
config="spark-submit \
--jars /data0/work_space/service/spark-2.0.0-bin-hadoop2.4/jars/hadoop-lzo-0.4.15.jar \
--master yarn \
--deploy-mode client \
--num-executors 100 \
--driver-memory 7g \
--executor-cores 4 \
--executor-memory 7g \
--class com.weibo.datasys.pipeline.Runner \
weispark-ml-0.5.0-SNAPSHOT.jar pipeline.xml [5]
"
echo $config
echo ===========================================
spark-submit \
--jars /data0/work_space/service/spark-2.0.0-bin-hadoop2.4/jars/hadoop-lzo-0.4.15.jar \
--master yarn \
--deploy-mode client \
--num-executors 100 \
--driver-memory 7g \
--executor-cores 4 \
--executor-memory 7g \
--conf spark.driver.maxResultSize=3g \
--conf spark.ui.retainedJobs=2 \
--conf spark.ui.retainedStages=2 \
--conf spark.worker.ui.retainedExecutors=5 \
--conf spark.worker.ui.retainedDrivers=5 \
--conf spark.eventLog.enabled=false \
--class com.weibo.datasys.pipeline.Runner \
weispark-ml-0.5.0-SNAPSHOT.jar pipeline.xml [5]
date2=`date +%F_%H-%M-%S`
echo ===========================================
echo date start : $date1
echo data size : $size
echo config : $config
echo date ended : $date2