一、下载:
1, IDEA
https://download.jetbrains.com/idea/ideaIC-14.1.7.exe
2、java
3、scala
https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.msi
4、maven
5,spark2.0.0-hadoop2.7
http://d3kbcqa49mib13.cloudfront.net/spark-2.0.0-bin-hadoop2.7.tgz
6,Hadoop 2.7.3
http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
7 anaconda2-4.3.1
https://repo.continuum.io/archive/Anaconda2-4.3.1-Windows-x86_64.exe
二、安装:
全部安装到D盘 DevEnv目录下,安装完如下图:
1、 安装JAVA
2、 安装scala
3、 安装IDEA,anaconda 解压maven spark,hadoop
4、 Asdf
三、配置环境变量
1、配置JAVA_HOME
2、配置HADOOP_HOME
3、配置MAVEN_HOME
4配置SPARK_HOME
5 SCALA_HOME
6,在PATH后面添加
;%JAVA_HOME%\bin;%SCALA_HOME%\bin;%MAVEN_HOME%\bin;%SPARK_HOME%\bin
四、配置IDEA+MAVEN+SAPRK
1、新建MAVEN ,SDK 选择JAVA所在路径,勾选“createfrom archetype”,再选中”scal-…simple”
设置groupID和artfid
这里的seting里面可以设置本地仓库
安装scala插件
“file”-“ setting”-“plugins”-“browseresopo”-
等待maven初始化工程和下载依赖项,第一次花费的时间会比较长,如果配置私有境像就会很快。
配置路径为:
重启,点击auto-enable初始化
右键新建scala类
修改pom文件中的scala版本为2.11.8
在依赖项里面添加spark依赖项
http://mvnrepository.com/artifact/org.apache.spark
选择 spark-core_2.11点进去后,再选择2.0.0
将内容复杂以pom文件中
会看到右下角的读条开始走动,说明已经在仓库下载spark相关依赖项到本地,
编写如下代码
在teminal里输入命令mvnclean install
报错
把src下面和main并列的test目录删掉,重新打包
进入target目录下面,提交JAR包,
报错
去官网下:
https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin
放到对应的目录下面,再重新打包,再跑,得到如下结果,说明成功。
如果想直接在IDEA 里面运行程序,则需要做如下两步配置,
1、 conf需要指定master为本地变量
2、 file-project sruct-module-选中当前moudle
3、
再在右边选中
选择加号,再选择jars or dic…,选到SPARK_HOME/jars目录,
等右下角加载完,再运行Run,,,得到如下结果:表示成功!
Python
Python就比较简单,不用打包,直接提交.py就可以跑,
在setting – puglins 里面添加python
下载完后重启IDEA
再new project的时候多了一个python选项
SDK选择之前装的anaconda所在目录
新建test_for_python.py文件,里面输入如下测试代码
这个时候还不能跑,因为依赖的lib还没有加入到python环境下,
将下面的pyspark
复制添加到
再运行,报错:
直接在terminal下面用pip下载py4j(要在连网下)
再run,,,
大功告成~
这已经是第四遍搭这个环境了,第一遍搭的非常辛苦,走了很多弯路,这次是在公司新领笔记本上搭建的,上面啥也没有,完全从0重新开始搭,搭一步写一步,每一步的截图都是真实情况复现,所以到最后肯定是可以成功的。
如何在IDEA 配置git这个后面再整理。