python使用 sparkSQL集群
python在一台windows PC上,思路是通过这台PC 远程连接sparksql执行任务。与此前使用jupyter notebook 不同,jupyter notebook实际上是通过浏览器远程连接spark集群的master 节点。
主要步骤:
1. 在PC上安装spark
此种场景中,PC作为spark集群的dirver端,因此需要在PC上部署spark
下载spark程序后,将压缩文件解压到指定目录中即可。
1. 在PC上安装spark
此种场景中,PC作为spark集群的dirver端,因此需要在PC上部署spark
下载spark程序后,将压缩文件解压到指定目录中即可。
2.安装JDK
3.设定环境变量
SPARK_HOME=E:\spark\
HADOOP_HOME=E:\spark\ ()
JAVA_HOME=E:\java-1.8.0\
Path=%SPARK_HOME%\bin;%JAVA_HOME%\bin;Path
CLASSPATH=%SPARK_HOME%\jars\ojdbc6.jar;%SPARK_HOME%\jars\mysql-connector-**.jar
4. 数据库驱动jar包
如果使用sparksql 连接oracle数据库读取数据,将oracle的驱动程序$ORACLE_HOME/jdbc/lib 目录中的jar程序复制到SPARK_HOME/jars目录中
如果使用sparksql 连接mysql数据库,将mysql-connector-*.jar文件复制到SPARK_HOME/jars目录中
3.设定环境变量
SPARK_HOME=E:\spark\
HADOOP_HOME=E:\spark\ ()
JAVA_HOME=E:\java-1.8.0\
Path=%SPARK_HOME%\bin;%JAVA_HOME%\bin;Path
CLASSPATH=%SPARK_HOME%\jars\ojdbc6.jar;%SPARK_HOME%\jars\mysql-connector-**.jar
4. 数据库驱动jar包
如果使用sparksql 连接oracle数据库读取数据,将oracle的驱动程序$ORACLE_HOME/jdbc/lib 目录中的jar程序复制到SPARK_HOME/jars目录中
如果使用sparksql 连接mysql数据库,将mysql-connector-*.jar文件复制到SPARK_HOME/jars目录中
5. hosts文件
在PC上,修改hosts文件,将SPARK集群的节点IP和主机名对应关系列入
X.X.X.X node1
X.X.X.X node2
X.X.X.X node3
在PC上,修改hosts文件,将SPARK集群的节点IP和主机名对应关系列入
X.X.X.X node1
X.X.X.X node2
X.X.X.X node3
在SPARK 集群的所有主机上,修改/etc/host文件,将PC的IP地址和主机名对应关系列入
X.X.X.X PC-name
X.X.X.X PC-name