
Spark
layne_liang
这个作者很懒,什么都没留下…
展开
-
百度spark技术解密
百度spark技术解密百度, 技术spark转载 2015-07-22 15:27:15 · 652 阅读 · 0 评论 -
spark streaming 与 storm的对比
feature strom (trident)spark streaming说明并行框架基于DAG的任务并行计算引擎(task parallel continuous computational engine Using DAG)基于spark的数据并行计算引擎(data parallel general purpose转载 2015-07-22 15:25:16 · 2446 阅读 · 0 评论 -
Intel李锐:Hive on Spark解析
Hive是基于Hadoop平台的数据仓库,最初由Facebook开发,在经过多年发展之后,已经成为Hadoop事实上的SQL引擎标准。相较于其他诸如Impala、Shark(SparkSQL的前身)等引擎而言,Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。Hive最初的计算引擎为MapReduce,受限于其自身的Map+Reduce计算模式,以及不够充分的大内利用,MapReduce转载 2015-07-22 15:32:21 · 743 阅读 · 0 评论 -
Spark中文手册-编程指南
概论在高层中,每个 Spark 应用程序都由一个驱动程序(driver programe)构成,驱动程序在集群上运行用户的mian 函数来执行各种各样的并行操作(parallel operations)。Spark 的主要抽象是提供一个弹性分布式数据集(RDD),RDD 是指能横跨集群所有节点进行并行计算的分区元素集合。RDDs 从 Hadoop 的文件系统中的一个文件中创建而转载 2015-07-22 15:43:51 · 3879 阅读 · 0 评论 -
Spark 学习资源收集【Updating】
(一)spark 相关安装部署、开发环境1、Spark 伪分布式 & 全分布式 安装指南http://my.oschina.net/leejun2005/blog/3949282、Apache Spark探秘:三种分布式部署方式比较http://dongxicheng.org/framework-on-yarn/apache-spark-comparing-thre转载 2015-07-22 15:35:20 · 621 阅读 · 0 评论 -
Spark1.2集群环境搭建(Standalone+HA) 4G内存5个节点也是蛮拼的
准备工作:1、笔记本4G内存 ,操作系统WIN7 2、工具VMware Workstation3、虚拟机:CentOS6.4共五台4、搭建好Hadoop集群( 方便Spark可从HDSF上读取文件,进行实验测试)实验环境:Hadoop HA集群:Iphostnamerole192.168.249.130转载 2015-07-22 15:42:58 · 465 阅读 · 0 评论 -
Spark学习体系整理(基础篇、中级篇、高级篇所涉及内容)
新手刚开始学习比较迷茫,参考下面,然后找相关资料学习1 Spark基础篇 1.1 Spark生态和安装部署 在安装过程中,理解其基本操作步骤。 安装部署 Spark安装简介 Spark的源码编译 Spark Standalone安装转载 2015-07-22 15:41:54 · 664 阅读 · 0 评论 -
流式大数据处理的三种框架:Storm,Spark和Samza
许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。Apache Storm在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个拓扑中包括转载 2015-07-22 15:30:12 · 575 阅读 · 0 评论