longhai_zheng-优快云博客

原创 Kafka消费者生产者编程模型（二）

浅谈Master的HA[睡着的水-hzjs-2016.08.25]三、Kafka生产者编程模型（接上文 Kafka消费者生产者编程模型(一)）-----1、同步生产模型-----2、异步生产模型-----3、两种生产模型的伪代码描述四、Kafka生产者的Python和Java客户端实现

2016-08-25 18:00:27 1245

原创 Kafka消费者生产者编程模型(一)

浅谈Master的HA[睡着的水-hzjs-2016.08.25]一、Kafka消费者编程模型1、分区消费模型：一对一的关系#分区消费模型伪代码描述：2、组（Group）消费模型#伪代码描述：Consumer分配算法：----1 中T 代表着所有的分区 Ci 代表分组下的所有的实例----4 对topic 下面的所有的分区进行排序，比

2016-08-25 14:15:01 2909

原创初识Kafka（一）

初识Kafka（一）一、Kafka 的使用背景1、在我们大量的使用分布式数据库、分布式计算集群的时候，是否会遇到这样的一些问题呢？# 我想分析用户行为，以便我能设计出更好的广告位# 我想对用户搜素的关键词进行统计，分析出当前的流行趋势# 有些数据，存数据库有些浪费，直接存硬盘操作效率又低-----这些数据都有一个共同的特征，由上一个模块产生，使用

2016-08-24 17:01:10 899

原创 Spark的缓存管理解析

Spark的缓存管理解析一、CacheManager分析1、CacheManager管理的缓存，而混存可以是基于内存的缓存，也可以是基于磁盘的缓存；2、CacheManager需要通过BlockManager来操作数据；3、当Task 运行的时候会调用RDD的compute方法进行计算，而compute 方法会调用iterator方法：二、CacheMa

2016-08-24 11:38:57 1262

原创 Spark 存储管理之BlockManger

Spark 存储管理之BlockManger[睡着的水-hzjs-2016.08.24]一、BlockManager 运行1、在Application 启动的时候会在SparkEnv 中注册 BlockManagerMaster以及MapOUtputTracher,其中：# a、 BlockManagerMaster：对整个集群的Block数据进行管理的；# b、Map

2016-08-24 09:21:11 818

原创王家林Spark视频

王家林Spark视频王家林(新浪微博:@ilovepains)的第一个中国梦：免费为全社会培养100万名优秀的大数据从业人员！您可以通过王家林老师的微信号18610086859发红包捐助大数据、互联网+、O2O、工业4.0、微营销、移动互联网等系列免费实战课程，目前已经发布的王家林免费视频全集如下：1，《大数据不眠夜：Spark内核天机解密（共140讲）

2016-08-23 17:34:36 2358

原创 Task执行过程与结果处理

Task执行过程与结果处理【睡着的水-hzjs-2016.08.23】一、Task执行流程1、当Driver中的CoarseGrainedSchedulerBackend给CoarseGrainedExecutorBackend 发送LaunchTask 之后，CoarseGrainedExecutorBackend 在收到LaunchTask消息后，首先会反序列化TaskDesc

2016-08-23 13:42:50 940

原创 Scheduler原理与机制

Scheduler原理与机制[睡着的水-hzjs-2016.08.22]一、Scheduler原理1、Spark 基本的调度图：二、TaskScheduler原理---1、DAGScheduler在提交TaskSet给底层调度器的时候是面向接口TaskScheduler的，这符合面向对象中依赖抽象不依赖具体的原则，带来了底层资源调度器的可插拔行，使得spark可以运行在

2016-08-22 17:34:47 8397

原创 Spark 之 Stage划分、数据本地性算法实现

Spark 之 Stage划分、数据本地性算法实现[ 睡着的水-hzjs-2016.08.22 ]一、Stage划分算法---1、Spark Application 中可以因为不同的Action触发众多的Job，也就是说一个Application 中可以有很多的Job，每个Job是有一个还或者多个Stage构成的，后面的Stage依赖前面的Stage，也就是说只有前面依赖的Stag

2016-08-22 14:01:51 1931

原创 Spark 的运行流程原理

## Spark Worker工作机制 ##一、worker 进程的启动1、Driver 与Executor 的启动过程二、Worker 启动Driver1、Cluster 中的Driver 失败的时候，如果supervise为true ，则启动该Driver 的Worker 会负责重新启动该Driver;2、DriverRunner 启动进程是

2016-08-21 15:30:30 2111

原创 Spark的注册服务

## ##一、Master对其它组件注册的处理1、Master 接受注册的对象主要是：Driver、Application、Worker ; 另外，Executor 不会注册给Master ,Executor 是注册给Driver中的SchedulerBackend 的；2、

2016-08-21 11:11:57 1059

原创浅谈Master的HA

## 浅谈Master的HA ##[睡着的水-hzjs-2016.8.21]一、Master 的HA解析---1、生产环境下一般采用Zookeeper做HA,且建议为3台Master , Zookeeper会自动管理Master的切换；---2、采用Zookeeper做HA的时候，Zookeeper会负责保存整个Spark集群运行时候的元数据：Workers \ Dri

2016-08-21 09:37:14 629

原创 Spark之SparkContext

一、SparkContext---1、Spark 程序在运行的时候分为Driver 和 Executors 两部分；---2、Spark 的程序编写时基于SparkContext的，集体来说包含两方面：a) Spark 编程的核心基础RDD,是由SparkContext 来最初创建的（第一个RDD,一定是由SparkContext来创建的）； b) Spark 程序的调度优

2016-08-20 17:03:45 1251

原创 Spark Sort Shuffle (二)

Spark Sort Shuffle (二)[睡着的水-hzjs-2016.08.19]一、为什么使用Sort-Based Shuffle?#Shuffle一般包含两阶段的任务：1、产生Shuffle数据的阶段（map）；2、使用Shuffle数据的阶段(reduce)。#Spark的job会被划分成很多的Stage阶段：1、如果只有一个Stage，则这个Job就相当于

2016-08-19 11:19:50 671

原创 Spark Hash Shuffle (一)

Spark Hash Shuffle（一）[ 睡着的水-hzjs-2016.08.19 ]一、什么是Shuffle？ Shuffle 中文的意思是混洗的意思，需要shuffle的关键性原因是某种具有共同特征的数据需要最终汇聚到一个计算机点上进行计算。二、shuffle面临的问题？运行Task的时候才会产生Shuffle(Shuffle已经融入算子中了)! 1、数据

2016-08-19 08:27:55 704

原创机器学习之协同过滤

机器学习之协同过滤[睡着的水-hzjs-2016.08.18][求点赞]一、协同过滤的基本概念协同过滤是推荐引擎的一种算法，经常用到的地方像亚马逊、京东、淘宝、今日头条等隐形推荐场景。像下面的推荐引擎就是我们的推荐系统：推荐系统主流的有三种：------基于人口统计学的推荐：典型的就是大众点评，当你去外地，比如去北京，大众点评会推荐北京的一些特色美食饭馆，这是根据你的自

2016-08-18 18:26:16 1835

原创 spark的任务执行流程解析

当我们没有运行任何程序，Master是管理资源，主要是内存和CPU,还有就是接收客户端发送的程序，并注册。worker节点只有worker进程，负责当前节点的内存和cpu的使用，spark是主从结构式架构。运行作业的方式有很多，最I简单的是就是spark-shell ，程序的ID是向master 注册的时候，master分配的。worker节点程序工作的core合数，内存大小是在配置文件中

2016-08-18 10:21:26 5979 1

原创机器学习之聚类算法

机器学习之聚类算法一、什么是聚类？物以聚类，人以群分。每个事物找到和自己相似的作为一类就是聚类，从小学到大学的学校生活中，每个人肯定都有自己的小团伙，自发的形成，，，其实这也算是聚类的实例。聚类在新闻分类、用户分组、商品分类等等很多情景都有广泛的应用。聚类：无需样本标注，无监督聚类，研究数据自身的特点，比如数据向量（人{聪明人，笨人，一般人}）分类：需要样本标注，数据类别（猴子，人

2016-08-17 18:37:53 11190

原创数据处理中Java与scala实现二次排序

spark编程之java版二次排序与Scala版二次排序，我们很明显的会发现Scala比Java简单的多，，，

2016-08-17 18:01:53 1232

LongHai_Zheng的博客