
Spark
doupeihua
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
安装spark1.3.1单机环境
本文介绍安装spark单机环境的方法,可用于测试及开发。主要分成以下4部分: (1)环境准备 (2)安装scala (3)安装spark (4)验证安装情况 1、环境准备 (1)配套软件版本要求:Spark runs on Java 6+ and Python 2.6+. For the Scala API, Spark 1.3.1 uses Scala 2.10. You wil转载 2016-07-11 14:50:43 · 383 阅读 · 0 评论 -
安装spark1.3.1单机环境
本文介绍安装spark单机环境的方法,可用于测试及开发。主要分成以下4部分: (1)环境准备 (2)安装scala (3)安装spark (4)验证安装情况 1、环境准备 (1)配套软件版本要求:Spark runs on Java 6+ and Python 2.6+. For the Scala API, Spark 1.3.1 uses Scala 2.10. You wil转载 2016-07-07 17:51:47 · 308 阅读 · 0 评论 -
spark 读取hbase数据并转化为dataFrame
最近两天研究spark直接读取hbase数据,并将其转化为dataframe。之所以这么做, 1、公司的数据主要存储在hbase之中 2、使用dataframe,更容易实现计算。 尽管hbase的官方已经提供了hbase-spark 接口,但是并未对外发布,而且目前的项目又有这方面的需求,且网上关于这么方面的参考比较少, 故贴出来,代码如下,仅供参考转载 2016-08-28 18:53:41 · 1565 阅读 · 0 评论 -
Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介
1、SparkSQL的发展历程 1.1 Hive and Shark SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hadoop的效率,转载 2016-08-09 12:51:29 · 501 阅读 · 0 评论 -
Spark入门实战系列--6.SparkSQL(中)--深入了解SparkSQL运行计划及调优
1.1 运行环境说明 1.1.1 硬软件环境 l 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存 l 虚拟软件:VMware® Workstation 9.0.0 build-812388 l 虚拟机操作系统:CentOS6.5 64位,单核 l 虚拟机运行环境: Ø JDK:1.7.0_55 64位 Ø Hadoop:2.2.0(需要编译为转载 2016-08-09 12:52:47 · 2489 阅读 · 0 评论 -
Spark入门实战系列--6.SparkSQL(下)--Spark实战应用
1、运行环境说明 1.1 硬软件环境 l 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存 l 虚拟软件:VMware® Workstation 9.0.0 build-812388 l 虚拟机操作系统:CentOS 64位,单核 l 虚拟机运行环境: Ø JDK:1.7.0_55 64位 Ø Hadoop:2.2.0(需要编译为64位) Ø转载 2016-08-09 12:53:47 · 684 阅读 · 0 评论 -
spark sql根本使用方法介绍
spark sql基本使用方法介绍 spark中可以通过spark sql 直接查询hive或impala中的数据, 一、启动方法 /data/spark-1.4.0-bin-cdh4/bin/spark-sql --master spark://master:7077 --total-executor-cores 10 --executor-memory 1g转载 2016-08-10 13:04:59 · 4494 阅读 · 0 评论