
spark
chenshiying007
关注大数据相关技术和软件架构
展开
-
Kafka+Spark Streaming+Redis实时计算整合实践
基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时计算。我转载 2017-03-17 19:02:03 · 786 阅读 · 0 评论 -
Spark Streaming事务处理彻底掌握
本篇文章主要从二个方面展开:一、Exactly Once二、输出不重复事务:银行转帐为例,A用户转账给B用户,B用户可能收到多笔钱,如何保证事务的一致性,也就是说事务输出,能够输出且只会输出一次,即A只转一次,B只收一次。从事务视角解密SparkStreaming架构:SparkStreaming应用程序启动,会分配资源,除非整个集群硬件资源奔溃,一转载 2017-03-17 20:04:47 · 472 阅读 · 0 评论 -
Spark磁盘空间满了
Spark使用一段时间后,发现磁盘空间没有了,尤其是运行SparkStreamingSpark streaming在不断的写日志,日志将磁盘撑满了。无论磁盘空间多大,都会撑破的。有时运行一个晚上,有时运行一个上午,磁盘写满了。1、配置log最大的保存文件大小!!最多保存多少文件!2、配置每一个文件的最大的大小!3、executor roll的间隔时间interval按天、小时、分钟转载 2017-03-17 19:33:00 · 1941 阅读 · 0 评论 -
Spark Streaming 中使用 zookeeper 保存 offset 并重用
在 Spark Streaming 中消费 Kafka 数据的时候,有两种方式分别是 1)基于 Receiver-based 的 createStream 方法和 2)Direct Approach (No Receivers) 方式的 createDirectStream 方法,详细的可以参考 Spark Streaming + Kafka Integration Guide ,但是第二种使转载 2017-03-17 20:15:28 · 1789 阅读 · 0 评论 -
从零开始学习,Apache Spark源码走读(一)
摘要:自2013年6月进入Apache孵化器,Spark已经有来自25个组织的120多位开发者参与贡献。而在不久前,更成为了Apache软件基金会的顶级项目,当下已是知名Hadoop开发商Cloudera和MapR的新宠。Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,即使使用磁盘,迭代类型的计算也会有10倍速度的提升。S转载 2017-03-16 17:28:04 · 978 阅读 · 0 评论 -
实时项目统计实战之三
实时项目统计实战之三更多干货分布式实战(干货)spring cloud 实战(干货)mybatis 实战(干货)spring boot 实战(干货)React 入门实战(干货)构建中小型互联网企业架构(干货)python 学习持续更新ElasticSearch 笔记kafka storm 实战 (干货)一、概述实时项目统计实战之一实时项目统计实战之二简单代码事例https://github.com...原创 2018-05-08 12:02:46 · 1529 阅读 · 0 评论