Spark大数据分析入门-优快云博客

本博客介绍如何通过阅读《spark快速大数据分析》一书快速掌握Spark大数据分析技能，涵盖书籍概览、开发环境搭建（包括Windows下IDEA配置、sbt安装及阿里云镜像设置）及测试环境部署等内容。

1.spark入门

阅读《spark快速大数据分析》这本书，总共11章，每天阅读一章左右，大概花两周时间就可以看完了。

在windows和linux上分别部署开发环境和测试、生产环境。

1.1 开发环境

（1）idea开发

在windows上用idea 部署scala应用程序的时候，总是报错。发现是插件的问题，新下载了一个idea ic2018.3，终于可以使用。

在settings-plugins中搜索scala，安装scala就可以啦。

新建项目很简单，create new project

查看sbt中的hello world教程：

https://www.scala-sbt.org/1.x/docs/zh-cn/index.html

（2）命令行配置

下面是配置sbt的方法

现在看官网上的描述，配置scala只需要下载sbt，就可以了。sbt-1.2.7.msi

一路next安装完成后，需要设置个阿里云的镜像。

进入安装目录 D:\Apps\sbt\conf，修改sbtconfig.txt


-Dsbt.repository.config=D:/Apps/sbt/conf/repo.properties
-Dsbt.repository.secure=false

# 设置代理
# -Dhttp.proxyHost=10.18.11.11
# -Dhttp.proxyPort=8080
# -Dhttp.proxyUser=xx
# -Dhttp.proxyPassword=xx

# -Dhttps.proxyHost=10.18.1111
# -Dhttps.proxyPort=8080
# -Dhttps.proxyUser=xx
# -Dhttps.proxyPassword=xx

然后添加repo.properties

[repositories]
  local
  aliyun: http://maven.aliyun.com/nexus/content/groups/public/
  typesafe: http://repo.typesafe.com/typesafe/ivy-releases/, [organization]/[module]/(scala_[scalaVersion]/)(sbt_[sbtVersion]/)[revision]/[type]s/[artifact](-[classifier]).[ext], bootOnly
  sonatype-oss-releases
  maven-central
  sonatype-oss-snapshots

安装完成，输入sbt，如果进入命令行就表明时正确的了。

进入命令行后，输入 sbtVersion 查看版本