
Spark
doupeihua
这个作者很懒,什么都没留下…
展开
-
安装spark1.3.1单机环境
本文介绍安装spark单机环境的方法,可用于测试及开发。主要分成以下4部分:(1)环境准备(2)安装scala(3)安装spark(4)验证安装情况1、环境准备(1)配套软件版本要求:Spark runs on Java 6+ and Python 2.6+. For the Scala API, Spark 1.3.1 uses Scala 2.10. You wil转载 2016-07-11 14:50:43 · 372 阅读 · 0 评论 -
安装spark1.3.1单机环境
本文介绍安装spark单机环境的方法,可用于测试及开发。主要分成以下4部分:(1)环境准备(2)安装scala(3)安装spark(4)验证安装情况1、环境准备(1)配套软件版本要求:Spark runs on Java 6+ and Python 2.6+. For the Scala API, Spark 1.3.1 uses Scala 2.10. You wil转载 2016-07-07 17:51:47 · 298 阅读 · 0 评论 -
spark 读取hbase数据并转化为dataFrame
最近两天研究spark直接读取hbase数据,并将其转化为dataframe。之所以这么做,1、公司的数据主要存储在hbase之中2、使用dataframe,更容易实现计算。尽管hbase的官方已经提供了hbase-spark 接口,但是并未对外发布,而且目前的项目又有这方面的需求,且网上关于这么方面的参考比较少,故贴出来,代码如下,仅供参考转载 2016-08-28 18:53:41 · 1554 阅读 · 0 评论 -
Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介
1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hadoop的效率,转载 2016-08-09 12:51:29 · 489 阅读 · 0 评论 -
Spark入门实战系列--6.SparkSQL(中)--深入了解SparkSQL运行计划及调优
1.1 运行环境说明1.1.1 硬软件环境l 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存l 虚拟软件:VMware® Workstation 9.0.0 build-812388l 虚拟机操作系统:CentOS6.5 64位,单核l 虚拟机运行环境:Ø JDK:1.7.0_55 64位Ø Hadoop:2.2.0(需要编译为转载 2016-08-09 12:52:47 · 2471 阅读 · 0 评论 -
Spark入门实战系列--6.SparkSQL(下)--Spark实战应用
1、运行环境说明1.1 硬软件环境l 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存l 虚拟软件:VMware® Workstation 9.0.0 build-812388l 虚拟机操作系统:CentOS 64位,单核l 虚拟机运行环境:Ø JDK:1.7.0_55 64位Ø Hadoop:2.2.0(需要编译为64位)Ø转载 2016-08-09 12:53:47 · 654 阅读 · 0 评论 -
spark sql根本使用方法介绍
spark sql基本使用方法介绍spark中可以通过spark sql 直接查询hive或impala中的数据, 一、启动方法/data/spark-1.4.0-bin-cdh4/bin/spark-sql --master spark://master:7077 --total-executor-cores 10 --executor-memory 1g转载 2016-08-10 13:04:59 · 4470 阅读 · 0 评论