spark提交python脚本并传参

本文详细介绍了一种使用Python脚本通过Spark集群访问Hive的方法。脚本接收JSON参数,利用SparkContext和HiveContext执行SQL查询,从Hive中获取数据并展示结果。文章深入解析了spark-submit命令配置及Python脚本实现细节。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

 

  • 脚本命令 这里第一个参数是python脚本名称,第二个参数是json
spark-submit  --master yarn --deploy-mode cluster --num-executors 20 --executor-memory 8g --executor-cores 2 --conf spark.yarn.executor.memoryoverhead=4096 $1.py $2


 

  • python 脚本 此脚本获取json传参并调用spark集群访问hive
from pyspark import SparkContext,SparkConf
import sys
conf = SparkConf().setAppName("lx1")
sc = SparkContext(conf=conf)

from pyspark.sql import HiveContext
import pandas as pd
sqlContext = HiveContext(sc)
import sys
print ('*********************************************')
#print (sys.argv[1])
import json
dt =sys.argv[1]+'}}'
print(dt)
#json.loads(dt)

data = sqlContext.sql("select area_no,ord from bcc.area")
print(data.columns)
print ('*********************************************')
#print ('jb', sys.argv[0])
for i in range(1, len(sys.argv)):
    print ("cs", i, sys.argv[i])
print('**********************************************')

data.show()

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值