目录
二.用xftp导入到vm虚拟机的/opt/install目录中,再在shell中ls展示:
三.解压spark至soft目录,并将其改名为spark312
在spark312/conf/目录下拷贝一份spark-env.sh.template并且重新命名为spark-env.sh
六.输入spark-shell进入黑窗口模式开始spark编写:
一.spark安装包:
链接:https://pan.baidu.com/s/1hZ330QAwjvSGqGCgq_JqAg?pwd=9bt7
提取码:9bt7
二.用xftp导入到vm虚拟机的/opt/install目录中,再在shell中ls展示:
三.解压spark至soft目录,并将其改名为spark312
[root@gree2 install]# tar -zxf spark-3.1.2-bin-hadoop3.2.tgz -C ../soft
[root@gree2 install]# mv spark-3.1.2-bin-hadoop3.2/ spark312
四.配置spark的环境变量
[root@gree2 soft]# vim /etc/profile
#SPARK_HOME
export SPARK_HOME=/opt/soft/spark312
export PATH=$PATH:$SPARK_HOME/bin
五.配置spark312
在spark312/conf/目录下拷贝一份spark-env.sh.template并且重新命名为spark-env.sh
[root@gree2 conf]# cp spark-env.sh.template spark-env.sh
修改spark-env.sh
[root@gree2 conf]# vim ./spark-env.sh
在74行下面配置spark
export SCALA_HOME=/opt/soft/scala212
export JAVA_HOME=/opt/soft/jdk180
export SPARK_HOME=/opt/soft/spark312
export HADOOP_INSTALL=/opt/soft/hadoop313
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_MASTER_IP=gree2
export SPARK_DRIVER_MEMORY=2G
export SPARK_LOCAL_DIRS=/opt/soft/spark312export SPARK_EXECUTOR_MEMORY=2G
需要搭建集群的话需要拷贝workers.template 并将其改名为workers,在workers中可以配置集群,我这里只配置单机版就不多撰写了
六.输入spark-shell进入黑窗口模式开始spark编写:
想从外部导包的话得先启动hadoop
[root@gree2 stufile]# start-all.sh
将一个文件导入hadoop的tmp目录中
[root@gree2 stufile]# hdfs dfs -put ./wordcount.txt /tmp
输入下面代码将workCount内容展示
scala> sc.textFile("hdfs://gree2:9000/tmp/wordcount.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect.foreach(println)