
spark
文章平均质量分 64
Next__One
学生
展开
-
spark独立模式配置
本文转载并发编程网 – ifeve.com《Spark 官方文档》Spark独立模式spark 1.6.0 [原文地址]Spark独立模式Spark除了可以在Mesos和YARN集群上运行之外,还支持一种简单的独立部署模式。独立部署模式下,你既可以手工启动(手动运行master和workers),也可以利用我们提供的启动脚本(launch scripts)。同时转载 2017-08-24 21:59:29 · 632 阅读 · 0 评论 -
【Spark Mllib】决策树,随机森林——预测森林植被类型
http://blog.youkuaiyun.com/u011239443/article/details/51858825数据集处理import org.apache.spark.mllib.linalg._import org.apache.spark.mllib.regression._val rawData = sc.textFile("covtype.data")val data转载 2017-10-25 12:26:21 · 806 阅读 · 0 评论 -
矩阵分解模型(1):ALS学习算法
一、矩阵分解模型。用户对物品的打分行为可以表示成一个评分矩阵A(m*n),表示m个用户对n各物品的打分情况。如下图所示:其中,A(i,j)表示用户user i对物品item j的打分。但是,用户不会对所以物品打分,图中?表示用户没有打分的情况,所以这个矩阵A很多元素都是空的,我们称其为“缺失值(missing value)”。在推荐系统中,我们希望得到用户对所有物品的打分情况,转载 2017-10-25 14:41:43 · 971 阅读 · 0 评论 -
Spark RDD、DataFrame和DataSet的区别
转载请标明出处:小帆的帆的专栏RDD优点:编译时类型安全 编译时就能检查出类型错误面向对象的编程风格 直接通过类名点的方式来操作数据缺点:序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性能开销 频繁的创建和销毁对象, 势必会增加GCimport org.apache.sp转载 2017-10-25 17:49:19 · 353 阅读 · 0 评论 -
DStream 生成 RDD 实例详解
我们在前面的文章讲过,Spark Streaming 的 模块 1 DAG 静态定义 要解决的问题就是如何把计算逻辑描述为一个 RDD DAG 的“模板”,在后面 Job 动态生成的时候,针对每个 batch,都将根据这个“模板”生成一个 RDD DAG 的实例。在 Spark Streaming 里,这个 RDD “模板”对应的具体的类是 DStream,RDD DAG转载 2017-11-12 20:42:51 · 772 阅读 · 0 评论 -
Spark Streaming 实现思路与模块概述
一、基于 Spark 做 Spark Streaming 的思路Spark Streaming 与 Spark Core 的关系可以用下面的经典部件图来表述:在本节,我们先探讨一下基于 Spark Core 的 RDD API,如何对 streaming data 进行处理。理解下面描述的这个思路非常重要,因为基于这个思路详细展开后,就能够充分理解整个 Spark Stre转载 2017-11-12 20:44:55 · 599 阅读 · 0 评论 -
DStream, DStreamGraph 详解
我们在前面的文章讲过,Spark Streaming 的 模块 1 DAG 静态定义 要解决的问题就是如何把计算逻辑描述为一个 RDD DAG 的“模板”,在后面 Job 动态生成的时候,针对每个 batch,都将根据这个“模板”生成一个 RDD DAG 的实例。在 Spark Streaming 里,这个 RDD “模板”对应的具体的类是 DStream,RDD DAG转载 2017-11-12 21:44:06 · 692 阅读 · 0 评论 -
JobScheduler, Job, JobSet 详解
前面在 Spark Streaming 实现思路与模块概述 和 DStream 生成 RDD 实例详解 里我们分析了 DStreamGraph和 DStream 具有能够实例化 RDD 和 RDD DAG 的能力,下面我们来看 Spark Streaming 是如何将其动态调度的。在 Spark Streaming 程序的入口,我们都会定义一个 batchDuration,就是需要每隔转载 2017-11-12 22:24:04 · 534 阅读 · 0 评论 -
Receiver 分发详解
我们前面在 DStream, DStreamGraph 详解 讲到,整个 DStreamGraph 是由 output stream 通过 dependency 引用关系,索引到上游 DStream 节点。而递归的追溯到最上游的 InputDStream 节点时,就没有对其它 DStream节点的依赖了,因为InputDStream 节点本身就代表了最原始的数据集。我们对 模块转载 2017-11-13 14:09:31 · 419 阅读 · 0 评论 -
Spark中Task,Partition,RDD、节点数、Executor数、core数目的关系
作者:王燚光链接:http://www.zhihu.com/question/33270495/answer/93424104来源:知乎梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上,每个File都包含了转载 2017-11-17 16:35:18 · 669 阅读 · 0 评论 -
Spark2.10中使用累加器、注意点以及实现自定义累加器
累加器(accumulator)是Spark中提供的一种分布式的变量机制,其原理类似于mapreduce,即分布式的改变,然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。累加器简单使用Spark内置的提供了Long和Double类型的累加器。下面是一个简单的使用示例,在这个例子中我们在过滤掉RDD中奇数的同时进行计数,最后计算剩下整数的和。转载 2017-11-18 18:49:06 · 1553 阅读 · 0 评论 -
Spark中repartition和coalesce的用法
repartition(numPartitions:Int):RDD[T]和coalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T]他们两个都是RDD的分区进行重新划分,repartition只是coalesce接口中shuffle为true的简易实现,(假设RDD有N个分区,需要重新划分成M个分区)1)、N2)如果N转载 2017-11-20 21:44:01 · 479 阅读 · 0 评论 -
3-Spark高级数据分析-第三章 音乐推荐和Audioscrobbler数据集
标签:偏好是无法度量的。相比其他的机器学习算法,推荐引擎的输出更直观,更容易理解。接下来三章主要讲述Spark中主要的机器学习算法。其中一章围绕推荐引擎展开,主要介绍音乐推荐。在随后的章节中我们先介绍Spark和MLib的实际应用,接着介绍一些机器学习的基本思想。3.1 数据集用户和艺术家的关系是通过其他行动隐含提现出来的,例如播放歌曲或专辑,而不是通过显式的评转载 2017-10-24 16:48:22 · 1600 阅读 · 1 评论 -
spark深度学习例子音乐推荐代码
object MusicRecommend { def musicRecommend()={ val conf = new SparkConf().setAppName("musicRecommend") val sc = new SparkContext(conf)// 处理艺术家数据 val rawArtistData = s原创 2017-10-24 13:34:33 · 1438 阅读 · 0 评论 -
Spark入门RDD操作
RDD(Resilient Distributed Datasets),弹性分布式数据集,RDD的简单操作原创 2017-08-27 18:28:53 · 567 阅读 · 0 评论 -
键值对RDD的创建方式
键值对RDD是对Spark中许多操作所需要的常见数据类型,通常用于聚合计算。先通过ETL(抽取,转换,装载)操作来将数据转化为键值对形式。 1.创建Pair RDD 在scala中使用第一个单词作为key,创建一个pairRDD val lines=sc.textFile("input/1.txt") val pairs = lines.map(x =>(x.split(" ")原创 2017-09-06 15:54:50 · 1231 阅读 · 0 评论 -
Spark源码系列(一)spark-submit提交作业过程
Spark源码系列(一)spark-submit提交作业过程前言折腾了很久,终于开始学习Spark的源码了,第一篇我打算讲一下Spark作业的提交过程。 这个是Spark的App运行图,它通过一个Driver来和集群通信,集群负责作业的分配。今天我要讲的是如何创建这个Driver Program的过程。作业提交方法以及参数我们先看一下用转载 2017-08-29 22:29:01 · 580 阅读 · 0 评论 -
Spark源码系列(二)RDD详解
Spark源码系列(二)RDD详解1、什么是RDD?上一章讲了Spark提交作业的过程,这一章我们要讲RDD。简单的讲,RDD就是Spark的input,知道input是啥吧,就是输入的数据。RDD的全名是Resilient Distributed Dataset,意思是容错的分布式数据集,每一个RDD都会有5个特征:1、有一个分片列表。就是能被切分,和hadoop转载 2017-08-29 22:31:43 · 307 阅读 · 0 评论 -
Spark源码系列(三)作业运行过程
Spark源码系列(三)作业运行过程作业执行上一章讲了RDD的转换,但是没讲作业的运行,它和Driver Program的关系是啥,和RDD的关系是啥?官方给的例子里面,一执行collect方法就能出结果,那我们就从collect开始看吧,进入RDD,找到collect方法。 def collect(): Array[T] = { val result转载 2017-08-29 22:35:03 · 290 阅读 · 0 评论 -
Spark源码系列(四)图解作业生命周期
Source:Spark源码系列(四)图解作业生命周期这一章我们探索了Spark作业的运行过程,但是没把整个过程描绘出来,好,跟着我走吧,let you know!我们先回顾一下这个图,Driver Program是我们写的那个程序,它的核心是SparkContext,回想一下,从api的使用角度,RDD都必须通过它来获得。下面讲一讲它所不为认知的一面,它和其它组件转载 2017-08-30 12:13:10 · 366 阅读 · 0 评论 -
spark与hive集成
1.spark和hive版本要求 spark1.4.0 hive-0.13.0(注意:不要使用hive0.14版本用于集成,否则会出很多问题)2、集群规划(hadoop 采用伪分布式)2.1 hadoop 伪分布式安装规划(同hadoop集群模式一样)NameNode: 192.168.2.20DataNode:192.168.2.20Resou转载 2017-10-19 11:12:42 · 625 阅读 · 0 评论 -
spark的yarn模式运行
3. Yarn-ClusterYarn是一种统一资源管理机制,可以在上面运行多种计算框架。Spark on Yarn模式分为两种:Yarn-Cluster和Yarn-Client,前者Driver运行在Worker节点,后者Driver运行在Client节点上。采用Spark on Yarn模式,只需要在一个节点部署Spark就行了,因此部署比较简单。先介绍一下Yarn-Clust转载 2017-10-13 16:59:09 · 783 阅读 · 0 评论 -
Spark DataFrme操作Hive
背景从spark1.3起,spark SQL中的SchemaRDD变为了DataFrame,DataFrame相对于SchemaRDD有了较大改变,同时提供了更多好用且方便的API。本文主要演示如何在spark1.5.2中使用DataFrame将数据写入hive中以及DataFrame的一些其他API,仅供参考。DataFrame SaveAsTable示例转载 2017-10-23 19:43:42 · 862 阅读 · 0 评论 -
Spark 2.0系列之SparkSession详解
用Spark的各项功能,用户不但可以使用DataFrame和Dataset的各种API,学习Spark的难度也会大大降低。本文就SparkSession在Spark2 0中的功能和地位加以阐释。Spark2.0中引入了SparkSession的概念,它为用户提供了一个统一的切入点来使用Spark的各项功能,用户不但可以使用DataFrame和Dataset的各种API,学习Sp转载 2017-10-23 20:13:58 · 2477 阅读 · 0 评论 -
spark启动过程sparkconf实例化
SparkConf 的构造很简单,主要是通过 ConcurrentHashMap 来维护各种 Spark 的配置属性。 Spark 的配置属性都是以“spark.”开头的字符串。 现在开始介绍 SparkContext。 SparkContext 的初始化步骤如下: 1)创建 Spark 执行环境 SparkEnv; 2)创建 RDD 清理器 metadataCleaner; 3)创建原创 2017-10-31 17:45:01 · 993 阅读 · 0 评论 -
最新版Spark2.2读取多种文件格式数据
Spark2.0+的文件读取Spark可以读取多种格式文件,csv,json,parque。因此对应就有很多函数与之对应。在Spark2.0以后一般使用SparkSession来操作DataFrame、Dataset来完成数据分析。这些读取不同格式文件的函数就是SparkSession的成员DataFrameReader的方法。该类就是将文件系统(HDFS,LocalFileSystem(一定要在每原创 2017-12-19 11:35:50 · 4507 阅读 · 1 评论