1.spark在命令行提交请求
spark-submit
1.使用spark Laucher来提交应用端的请求。
参数1:
conf.spark.yarn.jars = hdfs://hadoop
使用之前提交到
2. 大数据平台下载hadoop相关的xml配置文件
需要的配置文件:
echo $HADOOP_HOME
可以查询到hadoop安装的目录:
/opt/cloudera/parcels/CDH/lib/hadoop
在该目录下找到etc/hadoop
在该目录下查询到hdfs-site.xml、yarn-site.xml 文件
使用
echo $HIVE_HOME
/opt/cloudera/parcels/CDH/lib/hive
cd /opt/cloudera/parcels/CDH/lib/hive
在该目录下查看到hive的配置文件:hive-site.xml
使用
echo $SPARK_HOME
配置文件,可是拿到spark的驱动文件
3. 在java应用程序中
构造spark launcher对象,配置spark提交算法相关参数
spark standalone的master地址
4.spark安装包的目的:
需要使用spark安装包中的bin下面的spark-submit的安装脚本。
5.debug模式提交,会在控制台打印详细的日志信息
非debug模式提交时,控制台获取处理结果信息
6.在大数据平台哪里下载配置文件
7. spark驱动spark_driver_memory分配的内存 + spark的执行个数(NUM_EXECUTOR)乘以EXECUTOR_MEMORY的内存要小于应用可用的内存的大小