Spark集群环境搭建

Spark集群环境搭建
    -0. 前提:配置好Hadoop和JAVA的开发环境
    
    -1. 上传Spark和Scala压缩包(到~/software文件夹中)
    
    -2. 解压压缩包
    $ tar -zxvf ~/software/spark-1.6.1-bin-2.5.0-cdh5.3.6\(cdh版本 已经编译好的\).tgz -C ~/modules/
    $ tar -zxvf ~/software/scala-2.10.4.tgz -C ~/modules/
    
    -3. 配置环境变量
    $ vim ~/.bash_profile
# SCALA
export SCALA_HOME=/home/hadoop/modules/scala-2.10.4
export PATH=$PATH:$SCALA_HOME/bin

# SPARK
export SPARK_HOME=/home/hadoop/modules/spark-1.6.1-bin-2.5.0-cdh5.3.6
export PATH=$PATH:$SPARK_HOME/bin    
    $ source ~/.bash_profile
    
    -4. 配置Spark相关参数项
        --1. 进入Spark根目录
        $ cd $SPARK_HOME
        
        --2. 修改配置文件
        $ mv conf/spark-env.sh.template conf/spark-env.sh
        $ vim conf/spark-env.sh
JAVA_HOME=/home/hadoop/modules/jdk1.7.0_79
SCALA_HOME=/home/hadoop/modules/scala-2.10.4
HADOOP_CONF_DIR=/home/hadoop/modules/hadoop-2.5.0-cdh5.3.6/etc/hadoop
SPARK_LOCAL_IP=hadoopeasy    
######
HADOOP_CONF_DIR: 主要是给定spark应用程序连接hadoop相关服务的配置文件所在的文件夹路径是哪个,如果不给定,那么使用默认的HDFS文件系统(file:///)
该参数的作用其实就是将连接HDFS/YARN的相关配置文件添加到spark应用的classpath中,让spark应用可以连接上hdfs或者yarn    
######
    
    -5. 启动HDFS
    配置了相关环境变量
    $ start-dfs.sh
    
    -6. Spark环境测试(在同一个目录中,不能同时执行多次Spark根目录下bin文件夹中的命令,否则会报错,报错原因:环境没有集成Hive,解决方案:将Hive配置文件hive-site.xml放到$SPARK_HOME/conf文件夹中,并启动hive相关服务)
        --1. 进入Spark根目录
        $ cd $SPARK_HOME
        --2. 测试一:计算π的值
        $ ./bin/run-example  SparkPi 10
        --3. 测试二:PySpark测试
        $ ./bin/pyspark
Using Python version 2.6.6 (r266:84292, Nov 22 2013 12:16:22)
SparkContext available as sc, HiveContext available as sqlContext.
>>>    
        >>> sc   
        >>> rdd = sc.textFile("/test/input/wc.txt")
        >>> rdd.collect()
        备注:还可以通过web页面查看spark应用的执行情况
        textFile: 作用是按照行读取文本文件数据,形成一个RDD,RDD中的元素一行一行的文本

----------------------------------------------------------
Spark开发环境搭建(Windows)
    备注:建议Python版本2.7或者3.5,Python3.6支持不太友好。
    -1. 安装Java和Scala
    
    -2. 解压Spark安装包,配置Spark开发环境
      将其安装包解压到一个没有中文没有空格的文件夹即可
      eg: D:\ProgramFiles\spark-1.6.1-bin-2.5.0-cdh5.3.6
    
    -3. 配置Python开发插件
      从刚刚解压的spark根目录中将python\lib文件夹中的两个压缩包解压后放到python的对应目录中:
        --a. 解压py4j-0.9-src.zip和pyspark.zip
        --b. 解压后的内容(py4j和pyspark两个文件夹)放到:C:\Python3.5\Lib\site-packages
    
    -4. 完成环境搭建
      
---------------------------------------------
    
   

电动汽车数据集:2025年3K+记录 真实电动汽车数据:特斯拉、宝马、日产车型,含2025年电池规格和销售数据 关于数据集 电动汽车数据集 这个合成数据集包含许多品牌和年份的电动汽车和插电式车型的记录,捕捉技术规格、性能、定价、制造来源、销售和安全相关属性。每一行代表由vehicle_ID标识的唯一车辆列表。 关键特性 覆盖范围:全球制造商和车型组合,包括纯电动汽车和插电式混合动力汽车。 范围:电池化学成分、容量、续航里程、充电标准和速度、价格、产地、自主水平、排放、安全等级、销售和保修。 时间跨度:模型跨度多年(包括传统和即将推出的)。 数据质量说明: 某些行可能缺少某些字段(空白)。 几个分类字段包含不同的、特定于供应商的值(例如,Charging_Type、Battery_Type)。 各列中的单位混合在一起;注意kWh、km、hr、USD、g/km和额定值。 列 列类型描述示例 Vehicle_ID整数每个车辆记录的唯一标识符。1 制造商分类汽车品牌或OEM。特斯拉 型号类别特定型号名称/变体。型号Y 与记录关联的年份整数模型。2024 电池_类型分类使用的电池化学/技术。磷酸铁锂 Battery_Capacity_kWh浮充电池标称容量,单位为千瓦时。75.0 Range_km整数表示充满电后的行驶里程(公里)。505 充电类型主要充电接口或功能。CCS、NACS、CHAdeMO、DCFC、V2G、V2H、V2L Charge_Time_hr浮动充电的大致时间(小时),上下文因充电方法而异。7.5 价格_USD浮动参考车辆价格(美元).85000.00 颜色类别主要外观颜色或饰面。午夜黑 制造国_制造类别车辆制造/组装的国家。美国 Autonomous_Level浮点自动化能力级别(例如0-5),可能包括子级别的小
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值