
Spark
文章平均质量分 92
瓜牛呱呱
Hope is a good thing
展开
-
Spark性能优化
基础篇:http://tech.meituan.com/spark-tuning-basic.html高级篇:http://tech.meituan.com/spark-tuning-pro.html?utm_source=tuicool&utm_medium=referral这两篇文章对Spark调优,绝对有所帮助原创 2017-05-05 11:11:54 · 557 阅读 · 0 评论 -
SparkML之推荐引擎(一)—— 电影推荐
本文将使用 SparkML 来构建推荐引擎。 推荐引擎算法大致分为 基于内容的过滤、协同过滤、矩阵分解,本文将使用基于属于矩阵分解的 最小二乘法 算法来构建推荐引擎。 对于推荐引擎模块这里将分为两篇文章,第一篇文章主要是以实现推荐功能为主,第二篇文章主要是对模型进行评估 文章将按照以下章节来进行书写: 需求分析、获取数据、提取特征、训练模型、使用模型(推荐)一、需求分...原创 2018-05-02 18:17:24 · 1893 阅读 · 0 评论 -
SparkStreaming Direct 方式中手动管理 Kafka Offset 的示例代码
在大数据的场景下,流式处理都会借助 Kafka 作为消息接入的中间件,且 SparkStreaming 中 Direct 方式的优越性,现在可以说都使用 Direct 方式来获取 Kafka 数据Direct 方式是采用 Kafka 低级的 API 来获取数据,也就是说我们要自己来管理 这个offset SparkStreaming 中可以用 StreamingContext 的 chec...原创 2018-04-25 16:17:26 · 2757 阅读 · 0 评论 -
【源码追踪】SparkStreaming 中用 Direct 方式每次从 Kafka 拉取多少条数据(offset取值范围)
我们知道 SparkStreaming 用 Direct 的方式拉取 Kafka 数据时,是根据 kafka 中的 fromOffsets 和 untilOffsets 来进行获取数据的,而 fromOffsets 一般都是需要我们自己管理的,而每批次的 untilOffsets 是由 Driver 程序自动帮我们算出来的。 于是产生了一个疑问:untilOffsets 是怎么算出来的? 接下...原创 2018-04-19 16:37:12 · 3497 阅读 · 0 评论 -
Spark内存管理模型(二)—— 统一内存管理(Unified Memory Manager)
Spark内存模型在1.6版本之前版本采用的是静态管理(Static Memory Manager)的方式,在1.6之后采用的是统一管理(Unified Memory Manager)的方式。且Spark的可用内存分为堆内和堆外,由于堆外的比较简单,所以本文会对统一管理方式的情况进行讲解。Spark 1.6 之后引入了统一内存管理机制,该机制与静态内存管理的区别在于,存储内存(Stor...原创 2018-04-13 11:22:55 · 1334 阅读 · 1 评论 -
Spark内存管理模型(一)—— 静态内存管理(Static Memory Manager)
Spark内存模型在1.6版本之前版本采用的是静态管理(Static Memory Manager)的方式,在1.6之后采用的是统一管理(Unified Memory Manager)的方式。且Spark的可用内存分为堆内和堆外,所以本文先对静态内存管理的机制进行讲解。一、堆内静态管理(堆内)的模型如下图所示: 静态内存管理中,内存主要规划为3部分:一、Storage...原创 2018-04-13 10:29:32 · 1704 阅读 · 0 评论 -
SparkStreaming 中 Kafka 参数 auto.offset.reset 的说明
作用:如果Kafka中没有初始偏移或者当前偏移在服务器上不再存在时(例如,因为该数据已被删除)的处理方法。Kafka单独写consumer时可选参数:earliest:自动将偏移重置为最早的偏移量latest:自动将偏移量重置为最新的偏移量(默认)none:如果consumer group没有发现先前的偏移量,则向consumer抛出异常。其他的参数:向consumer抛出...原创 2017-06-16 11:22:38 · 4359 阅读 · 0 评论 -
让 Spark Streaming 程序在 YARN 集群上长时间运行(三)—— Grafana、优雅地停止(Graceful stop)、总结
前段时间看到了外国朋友写的一篇文章,觉得还不错,于是就把他翻译一下,供大家参考和学习。 如果没看过前两篇文章(第一篇、第二篇),建议先去看一下哈,这里是接着上两篇文章来写的哈~Grafana当你为 Spark 应用程序配置第一个 Grafana 仪表板时,首先出现的问题是:How to configure Graphite query when metrics fo...翻译 2018-04-15 22:31:34 · 2392 阅读 · 0 评论 -
让 Spark Streaming 程序在 YARN 集群上长时间运行(二)—— 日志、监控、Metrics
前段时间看到了外国朋友写的一篇文章,觉得还不错,于是就把他翻译一下,供大家参考和学习。 如果没看过第一篇文章,建议先去看一下上一篇文章哈,这里是接着上一篇文章来写的哈~日志访问 Spark 应用程序日志的最简单方法是配置 Log4j 控制台 appender,等待应用程序终止并使用 yarn logs -applicationId [applicationId] 命令。 ...翻译 2018-04-15 20:09:21 · 2649 阅读 · 3 评论 -
让 Spark Streaming 程序在 YARN 集群上长时间运行(一)—— 故障容错、性能、安全
前段时间看到了外国朋友写的一篇文章,觉得还不错,于是就把他翻译一下,供大家参考和学习。长时间运行的 Spark Streaming 作业一旦提交给 YARN 集群,应该一直运行,直到故意停止。 任何中断都会导致严重的处理延迟,并且可能会导致处理数据丢失或重复。 YARN 和 Apache Spark 都不是为执行长时间运行的服务而设计的。 但是他们已经成功地适应了日益增长的近乎实时处理...翻译 2018-04-14 17:58:52 · 2742 阅读 · 0 评论 -
Spark 和 MR(MapReduce) 的区别
个人总结了三点,如下:数据处理形式不同:Spark的数据转换都是基于内存的,而MR都是处理一次刷到磁盘一次代码书写的不同:Spark提供了非常丰富的算子,书写起来非常爽,而MR的书写就有点让人头痛容错性不同:Spark的容错比MR更加高,因为Spark算子有血缘关系...原创 2018-04-09 16:24:43 · 1579 阅读 · 0 评论 -
RDD、DataFrame和DataSet三者的关系
http://developer.51cto.com/art/201603/507668.htm推荐:http://blog.youkuaiyun.com/wo334499/article/details/51689549转载 2017-06-19 18:16:56 · 964 阅读 · 0 评论 -
Spark本地化调度
Spark的task一般都会分发到它所需数据的那个节点,这称之为”NODE_LOCAL”。但在资源不足的情况下,数据所在节点未必有资源处理task,因此Spark在等待了“spark.locality.wait”所配置的时间长度后,会退而求其次,分发到数据所在节点的同一个机架的其它节点上,这是“RACK_LOCAL”。当然,也有更惨的,就是再等了一段“spark.locality.wait”的时间长原创 2017-06-16 14:39:33 · 676 阅读 · 0 评论 -
SparkStreaming采用直连方式(Direct Approach)获取Kafka数据的研究心得
这里不多介绍一些基础的,只说说我最近研究直连方式的心得使用SparkStreaming的直连方式来进行流式处理,并且这个程序要可靠性,并且具有一致性(原子性),那么我心中就产生了如下的疑问:1、如何保证直连方式中Kafka的offset的精准度2、如何保证StreamingContext信息的不丢失:即重启后,集群配置信息、计算处理过程中信息的不丢失3、如何保证Driver挂掉...原创 2017-05-17 18:40:03 · 3479 阅读 · 1 评论 -
SparkStreaming的checkpoint(可靠性、一致性、高可用性)
在网上找了好久都没有找到关于《SparkStreaming的checkpoint(可靠性、一致性、高可用性)》的答案,都是在泛泛而谈,且没有示例代码。于是本人就决定去官网看看,没想到却找到了心中的理想答案。在Spark官网中明确的说明了如何搭建高可用的SparkStreaming程序,以及要注意的点跳转到Spark官网原创 2017-05-15 18:19:57 · 656 阅读 · 0 评论 -
SparkML之推荐引擎(二)—— 推荐模型评估
本文内容和代码是接着上篇文章来写的,推荐先看一下哈~ 我们上一篇文章是写了电影推荐的实现,但是推荐内容是否合理呢,这就需要我们对模型进行评估 针对推荐模型,这里根据 均方差 和 K值平均准确率 来对模型进行评估,MLlib也对这几种评估方法都有提供内置的函数在真实情况下,是要不断地对推荐模型的三个关键参数 rank、iterations、lambda 分别选取不同的值,然后...原创 2018-05-04 10:35:24 · 1935 阅读 · 0 评论