spark安装(win7单机模式)

[i][b]2016/06/16更新[/b][/i]
windows环境下需要额外下载winutils

1.环境
首先要注意不同版本的spark需要不同版本的scala,python。
我这里试验成功的版本如下:

Windows 7
JDK 1.7.0_72
scala 2.10.5
python 2.7.8
spark 1.4.1
winutils

2.下载

2.1 下载spark+hadoop
去[url=http://spark.apache.org/downloads.html]官网[/url]下载
选择如下
Choose a Spark release: 1.4.1
Choose a package type: pre-built for hadoop 2.6 and later
Choose a download type:随意
Download Spark: spark-1.4.1-bin-hadoop2.6.tgz

下载完解压。

2.2 下载winutils,hadoop.dll
另外要在windows上成功运行,需要下载[url=http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe]winutils[/url]
(文末附件也有下载)

将winutils.exe,hadoop.dll复制到spark-1.4.1-bin-hadoop2.6\bin目录下。
设置环境变量HADOOP_HOME = spark-1.4.1-bin-hadoop2.6根目录

3.shell测试
以下shell会输出部分错误信息,但不影响主要功能。

3.1 python shell

D:\opensource\hadoop\spark-1.4.1-bin-hadoop2.6>[color=blue]bin\pyspark[/color]

>>> [color=blue]lines = sc.textFile("README.md")[/color]
>>> [color=blue]lines.count()[/color]
[Stage 0:> (0 + 2) / 2]

98
>>> [color=blue]lines.first()[/color]
u'# Apache Spark'
>>>

3.2 scala shell

D:\opensource\hadoop\spark-1.4.1-bin-hadoop2.6>[color=blue]bin\spark-shell[/color]


scala> [color=blue]val lines = sc.textFile("README.md")[/color]
lines: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[1] at textFile at <console>:21

scala> [color=blue]lines.count()[/color]
res0: Long = 98

scala> [color=blue]lines.first()[/color]
res1: String = # Apache Spark

scala>


3.3 查看SparkUI
以上2种shell任意打开一种,然后浏览http://localhost:4040即可。


4. 例子程序——PI计算

D:\opensource\hadoop\spark-1.4.1-bin-hadoop2.6>[color=blue]bin\run-example org.apache.spark.examples.SparkPi[/color]
16/06/16 15:42:54 WARN NativeCodeLoader: Unable to load native-hadoop library fo
r your platform... using builtin-java classes where applicable
[Stage 0:> (0 + 2) / 2]
[Stage 0:=============================> (1 + 1) / 2]

Pi is roughly 3.1416

5. 可独立运行的java程序
《Learning Spark》一书的源码
[url]https://github.com/databricks/learning-spark[/url]
编译以后运行

D:\opensource\hadoop\spark-1.4.1-bin-hadoop2.6>[color=blue]bin\spark-submit --class com.oreilly.learningsparkexamples.java.WordCount ./java-0.0.2.jar local ./README.md ./wordCount.txt[/color]
16/06/30 16:48:54 WARN SparkConf: null jar passed to SparkContext constructor
16/06/30 16:48:54 WARN NativeCodeLoader: Unable to load native-hadoop library fo
r your platform... using builtin-java classes where applicable

结果在spark根目录下生成了wordCount.txt文件夹,里面有WordCount结果。
要在Ubuntu上安装和配置PySpark 3.2的单机模式,可以按照以下步骤进行操作: 1. 首先,确保已经安装了JDK、Hadoop、Spark和Anaconda。可以使用apt-get命令安装JDK、Hadoop和Spark,使用Anaconda官方网站提供的脚本来安装Anaconda。 2. 安装完成后,打开终端并运行以下命令来编辑/etc/profile文件: ``` vi /etc/profile ``` 3. 在文件的末尾添加以下内容,用于配置PySpark的环境变量: ``` export PYSPARK_DRIVER_PYTHON=$ANACONDA_HOME/bin/ipython3 export PYSPARK_PYTHON=$ANACONDA_HOME/bin/python3 export PYSPARK_DRIVER_PYTHON_OPTS="notebook" ``` 4. 保存并退出/etc/profile文件。运行以下命令来使配置生效: ``` source /etc/profile ``` 5. 接下来,编辑/etc/profile文件,并将以下内容添加到文件的末尾,用于配置Spark的环境变量: ``` export SPARK_HOME=/home/demo/hadoopApp/spark-3.0.0-preview2-bin-hadoop3.2 export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin: ``` 6. 再次保存并退出/etc/profile文件。运行以下命令来使配置生效: ``` source /etc/profile ``` 7. 现在,PySpark3.2的单机模式已经成功安装和配置完成。在终端中输入以下命令来启动PySpark: ``` pyspark ``` 这将打开Jupyter Notebook,并允许您在浏览器中使用PySpark。 请注意,这只是安装和配置PySpark3.2的单机模式的基本步骤。具体的安装和配置步骤可能因系统配置和版本而有所不同。建议您参考官方文档或在线资源以获取更详细的指南。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [Ubuntu系统下配置单机版Hadoop、Spark、Pyspark以及安装Anaconda教程](https://blog.youkuaiyun.com/Y_Bug/article/details/105441177)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [Win10安装配置Spark3.0.2+单机版hadoop+JDK并运行实例+安装运行Docker](https://blog.youkuaiyun.com/ZN_COME/article/details/117167474)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值