
saprk
江湖小小虾
江湖小虾,大数据爱好者,学习者,
展开
-
Spark入门实战指南——HIVE
一、HIVE简介 Hive的设计目标是为了分析查询结构化的海量数据 1. hive是建立在hadoop上的数据仓库基础构架 2. 用来进行数据提取转化加载(ETL) 3. Hive定义了简单的SQL查询语言,SQL语句转译成M/R Job然后在Hadoop上执行 4. Hive表其实就是HDFS的目录(实操) 数据仓库的元数据信息:数据仓库中可原创 2016-09-09 17:06:15 · 832 阅读 · 0 评论 -
Spark入门实战指南——Spark运行架构
2016/8/29 1、Spark运行架构 1.1 术语定义 lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码; lDriver: main()函数创建SparkContext(通常用SparkContext转载 2016-08-29 10:27:59 · 1226 阅读 · 0 评论 -
Spark集群搭建+基于zookeeper的高可用HA
1. Spark高可用HA 1.1安装zookeeper 1.1.1下载zookeeper-3.4.6 1.1.2 解压zookeeper 1.1.3 修改ZOOKEEPER_HOME/PATH 1.1.4 zookeeper-3.4.6]$ mkdirlogs /data ①cpconf/zoo_sample.cfg conf/zoo.cfg ②修改zoo.cfg中的原创 2016-08-26 19:58:11 · 9979 阅读 · 0 评论 -
Spark入门实战指南——Spark SQL入门
一、SparkSQL运行架构 Spark SQL对SQL语句的处理,首先会将SQL语句进行解析(Parse),然后形成一个Tree,在后续的如绑定、优化等处理过程都是对Tree的操作,而操作的方法是采用Rule,通过模式匹配,对不同类型的节点采用不同的操作。 二、SparkSQL CLI 2.1 配置并启动 2.1.1 创建并配置hive-site.xml 在运行Spark SQL CL原创 2016-09-19 15:23:40 · 4851 阅读 · 0 评论 -
Spark入门实战指南——Spark生态圈+第一个Spark程序
一、Spark及其生态圈简介 1.目前大数据处理场景有以下几个类型: 1. 复杂的批量处理(BatchData Processing),偏重点在于处理海量数据的能力,至于处理速度可忍受,通常的时间可能是在数十分钟到数小时; 2. 基于历史数据的交互式查询(Interactive Query),通常的时间在数十秒到数十分钟之间 3. 基于实时数据流的数据处理(Streaming Data原创 2016-08-29 16:04:39 · 2266 阅读 · 0 评论 -
Spark 2.0从入门到精通245讲——操作RDD(transformation案例实战)
package cn.spark.study.core import org.apache.spark.SparkConf import org.apache.spark.SparkContext /** * @author Administrator */ object TransformationOperation { def main(args: Array[String]原创 2017-10-12 17:19:38 · 434 阅读 · 0 评论 -
Spark 2.0从入门到精通245讲——操作RDD(action案例实战)
package cn.spark.study.core import org.apache.spark.SparkConf import org.apache.spark.SparkContext /** * @author Administrator */ object ActionOperation { def main(args: Array[String]) {原创 2017-10-12 18:01:06 · 597 阅读 · 0 评论