
大数据(spark)
文章平均质量分 85
wang609128516
这个作者很懒,什么都没留下…
展开
-
Spark与Shark的原理
1.Spark生态圈如下图所示为Spark的整个生态圈,最底层为资源管理器,采用Mesos、Yarn等资源管理集群或者Spark 自带的Standalone模式,底层存储为文件系统或者其他格式的存储系统如HBase。Spark作为计算框架,为上层多种应用提供服务。 Graphx和MLBase提供数据挖掘服务,如图计算和挖掘迭代计算等。Shark提供SQL查询服务,兼容Hive语法,性能比H...原创 2015-06-17 09:31:20 · 736 阅读 · 0 评论 -
spark 架构及运算逻辑
Spark的整体流程为:Client 提交应用,Master找到一个Worker启动Driver,Driver向Master或者资源管理器申请资源,之后将应用转化为RDD Graph,再由DAGScheduler将RDD Graph转化为Stage的有向无环图提交给TaskScheduler,由TaskScheduler提交任务给Executor执行。在任务执行的过程中,其他组件协同工作,确保...原创 2015-06-17 16:43:58 · 359 阅读 · 0 评论 -
Spark 安装&配置
前提安装 hadoop ,JDK 环境 下载地址 scala:http://www.scala-lang.org/download/2.11.6.html 解压: tar –zxvf scala-2.11.6.tgz配置环境变量:vi /etc/profileexport SCALA_HOME=/opt/scala-2.11.6export PATH=$SCAL...原创 2015-06-17 19:35:52 · 119 阅读 · 0 评论 -
Spark 使用Java 写入 HBase
实例代码:package com.bigdata.spark.hbase; import java.io.IOException;import java.util.List;import java.util.regex.Pattern; import org.apache.hadoop.conf.Configuration;import org.apache.h...原创 2015-06-26 15:30:28 · 1816 阅读 · 0 评论