zhouzhihubeyond-优快云博客

原创 Akka书箱推荐

话不多说，推荐下面几本书： 1. Akka Essentials, By Munish K. Gupta, Publisher: Packt Publishing,Release Date: October 2012。非常适合入门级，图文并茂，看完能够明白AKKA的大部分精髓 2. Effective Akka,By Jamie Allen,Publisher: O’Reilly Media,R

2015-11-09 23:24:22 10285 1

Apache Spark、Apache Kafka等基于Scala语言实现的框架在大数据生态圈内占有举足轻重的地位，它们一定程度上引领着大数据最前沿技术方向，另外Akka、Apache Gearpump等基于Scala语言实现的框架在大数据生态圈内也备受关注，工业实践已经证明了Scala语言的强大，这使Scala语言近一两年名声大噪，进而引起众多编程语言爱好者及各大公司的亲睐，国内外也因此掀起了一场

2016-09-08 23:41:16 25346 2

原创 Akka并发编程——第八节：Actor模型（七）

本节主要内容停止运行Typed Actor当Typed Actor不再需要时要将其停止，有3种方法停止Typed Actor的运行：（1）通过system.shutdown()停止ActorSystem中所有的Typed Actor；（2）调用TypedActor(system).stop(mySquarer)停止指定的Typed Actor；（3）调用Typed

2016-06-26 23:02:16 13390

原创 Akka并发编程——第七节：Actor模型（六）

主要内容： 1. Typed Actor定义 2. Typed Actor创建 3. 消息发送1. Typed Actor定义Akka中的Typed Actor是Active Objects设计模式的实现，Active Objects模式将方法的执行和方法的调用进行解耦合，从而为程序引入并发性。Typed Actor由公用的接口和对应实现两部分构成，其后面深层次的实现使用的是代理模式，即通过使

2016-06-26 22:59:47 12888

原创 Akka并发编程——第六节：Actor模型（五）

本将主要内容： 1. !消息发送，Fire-and-Forget消息模型 2. ？消息发送，Send-And-Receive-Future消息模型Akka提供了两种消息模型：fire-and-forget和Send-And-Receive-Future。fire-and-forget是一种单向消息发送模型，指的是异步发送消息，通过异步发送消息且消息发送后可以立即返回，Akka中使用?方法进行fi

2016-06-03 23:17:48 21102

原创 Akka并发编程——第五节：Actor模型（四）

本节主要内容： 1. 停止Actor1. 停止Actor（1）通过ActorSystem.shutdown方法停止所有 Actor的运行/**停止Actor:ActorSystem.shutdown方法*/object Example_10 extends App{ import akka.actor.Actor import akka.actor.ActorSystem imp

2016-04-02 22:24:01 5968

原创 Akka并发编程——第四节：Actor模型（三）

本将主要内容： 1. Actor引用、Actor路径1. Actor引用、Actor路径下图是Akka官方文档中给出的一张图该图清晰地说明了ActorPath，ActorRef，Actor及ActorSystem之间的关系，并说明了Actor整体的层次结构。前面我们提到，Akka应用程序会持有一个名称为user的Actor，该Actor被称为guardian supervisor（守卫监督器），无

2016-04-02 21:24:10 10048

原创 Akka并发编程——第三节：Actor模型（二）

本节主要内容：Actor API解析1. Actor API解析Actor中的主要成员变量和方法定义如下：package akka.actortrait Actor extends scala.AnyRef { type Receive = akka.actor.Actor.Receive //context变量暴露当前Actor的上下文信息及当前消息 implicit val co

2016-04-02 19:26:29 7144

原创 Akka并发编程——第二节：Actor模型(一）

本节主要内容定义Actor创建Actor1. 定义Actor通过扩展akka.actor.Actor 特质并实现receive方法来定义Actor，代码示例如下//通过扩展Actor并实现receive方法来定义Actorclass MyActor extends Actor { //获取LoggingAdapter，用于日志输出 val log = Logging(cont

2016-04-02 15:19:00 10217

原创 Akka框架——第一节：并发编程简介

本节主要内容： 1. 重要概念 2. Actor模型 3. Akka架构简介多核处理器的出现使并发编程（Concurrent Programming）成为开发人员必备的一项技能，许多现代编程语言都致力于解决并发编程问题。并发编程虽然能够提高程序的性能，但传统并发编程的共享内存通信机制对开发人员的编程技能要求很高，需要开发人员通过自身的专业编程技能去避免死锁、互斥等待及竞争条件（Race Con

2016-04-01 22:58:05 20059

原创 Spark修炼之道（进阶篇）——Spark入门到精通：第十节 Spark SQL案例实战（一）

作者：周志湖1. 获取数据本文通过将github上的Spark项目git日志作为数据，对SparkSQL的内容进行详细介绍数据获取命令如下：[root@master spark]# git log --pretty=format:'{"commit":"%H","author":"%an","author_email":"%ae","date":"%ad","message":"%f"}' >

2016-02-05 23:56:32 9711 2

原创 Spark修炼之道（进阶篇）——Spark入门到精通：第九节 Spark SQL运行流程解析

1.整体运行流程使用下列代码对SparkSQL流程进行分析，让大家明白LogicalPlan的几种状态，理解SparkSQL整体执行流程// sc is an existing SparkContext.val sqlContext = new org.apache.spark.sql.SQLContext(sc)// this is used to implicitly convert an

2015-12-31 10:58:21 16143 2

原创 Spark修炼之道（高级篇）——Spark源码阅读：第十三节 Spark SQL之SQLContext（一)

1. SQLContext的创建SQLContext是Spark SQL进行结构化数据处理的入口，可以通过它进行DataFrame的创建及SQL的执行，其创建方式如下：//sc为SparkContextval sqlContext = new org.apache.spark.sql.SQLContext(sc)其对应的源码为：def this(sparkContext: S

2015-12-30 07:29:38 16684 3

原创 Spark修炼之道（高级篇）——Spark源码阅读：第十二节 Spark SQL 处理流程分析

作者：周志湖下面的代码演示了通过Case Class进行表Schema定义的例子：// sc is an existing SparkContext.val sqlContext = new org.apache.spark.sql.SQLContext(sc)// this is used to implicitly convert an RDD to a DataFrame.import

2015-12-28 23:38:51 18432 1

原创 Spark修炼之道（进阶篇）——Spark入门到精通：第一节 Spark 1.5.0集群搭建

作者：周志湖网名：摇摆少年梦微信号：zhouzhihubeyond本节主要内容操作系统环境准备Hadoop 2.4.1集群搭建Spark 1.5.0 集群部署注：在利用CentOS 6.5操作系统安装spark 1.5集群过程中，本人发现Hadoop 2.4.1集群可以顺利搭建，但在Spark 1.5.0集群启动时出现了问题（可能原因是64位操作系统原因，源码需要重新编译，但本人没经

2015-12-28 21:36:41 36089 25

原创 Spark Shuffle模块——Suffle Read过程分析

在阅读本文之前，请先阅读Spark Sort Based Shuffle内存分析Spark Shuffle Read调用栈如下： 1. org.apache.spark.rdd.ShuffledRDD#compute() 2. org.apache.spark.shuffle.ShuffleManager#getReader() 3. org.apache.spark.shuffle.hash

2015-12-21 21:19:40 9922

原创 Spark修炼之道（进阶篇）——Spark入门到精通：第十六节 Spark Streaming与Kafka

作者：周志湖主要内容Spark Streaming与Kafka版的WordCount示例（一）Spark Streaming与Kafka版的WordCount示例（二）1. Spark Streaming与Kafka版本的WordCount示例（一）启动kafka集群root@sparkslave02:/hadoopLearning/kafka_2.10-0.8.2.1# bin/kaf

2015-12-03 23:32:41 10213

原创 Spark修炼之道（进阶篇）——Spark入门到精通：第十五节 Kafka 0.8.2.1 集群搭建

作者：周志湖微信号：zhouzhihubeyond本节为下一节Kafka与Spark Streaming做铺垫主要内容1.kafka 集群搭建1. kafka 集群搭建kafka 安装与配置到下面的地址下载：Scala 2.10 - kafka_2.10-0.8.2.1.tgz http://kafka.apache.org/downloads.html 下载完成后，使用命令tar

2015-12-02 22:43:57 9178

原创 Spark修炼之道（进阶篇）——Spark入门到精通：第十四节 Spark Streaming 缓存、Checkpoint机制

作者：周志湖微信号：zhouzhihubeyond主要内容本节内容基于官方文档：http://spark.apache.org/docs/latest/streaming-programming-guide.htmlSpark Stream 缓存Checkpoint案例1. Spark Stream 缓存通过前面一系列的课程介绍，我们知道DStream是由一系列的RDD构成的，它同一般的

2015-11-30 23:42:36 32005

原创 Spark修炼之道（进阶篇）——Spark入门到精通：第十三节 Spark Streaming—— Spark SQL、DataFrame与Spark Streaming

主要内容Spark SQL、DataFrame与Spark Streaming1. Spark SQL、DataFrame与Spark Streaming源码直接参照：https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/streaming/SqlNetworkW

2015-11-29 16:17:02 14165 1

原创 Spark修炼之道（进阶篇）——Spark入门到精通：第十二节 Spark Streaming—— DStream Window操作

作者：周志湖微信号：zhouzhihubeyond本节主要内容Window Operation入门案例1. Window OperationSpark Streaming提供窗口操作（Window Operation），如下图所示：上图中，红色实线表示窗口当前的滑动位置，虚线表示前一次窗口位置，窗口每滑动一次，落在该窗口中的RDD被一起同时处理，生成一个窗口DStream（wind

2015-11-29 15:38:20 19597 4

原创 Spark修炼之道（进阶篇）——Spark入门到精通：第十一节 Spark Streaming—— DStream Transformation操作

本节主要内容本节部分内容来自官方文档：http://spark.apache.org/docs/latest/streaming-programming-guide.htmlDStream Transformation操作1. Transformation操作 Transformation Meaning map(func) 对DStream中的各个元素进行func函数操作，然后

2015-11-25 23:54:57 13801 1

原创 Spark修炼之道（进阶篇）——Spark入门到精通：第十节 Spark Streaming（一)

本节主要内容本节部分内容来自官方文档：http://spark.apache.org/docs/latest/streaming-programming-guide.html#mllib-operationsSpark流式计算简介Spark Streaming相关核心类入门案例1. Spark流式计算简介Hadoop的MapReduce及Spark SQL等只能进行离线计算，无法满足实时性要

2015-11-21 22:34:46 17916 2

原创 Spark国内外书籍推荐

Spark的爆发式的成长，今年Spark相关书籍明显比去年那时候多得多，这里面所国内外目前所有的书籍推荐给大家。因为在网络上，不便于将书籍的电子版公开出来，需要的可以私信我或加我微信：zhouzhihubeyond国内Spark书籍：《Spark大数据处理：技术、应用与性能优化》，作者：高彦杰，出版社：机械工业出版社，出版时间：2014年11月，Spark版本：1.0；《Spark大数据处理

2015-11-16 21:15:01 22885 5

原创 Spark修炼之道（高级篇）——Spark源码阅读：第十节 Standalone运行模式解析

Spark Standalone采用的是Master/Slave架构，主要涉及到的类包括：类：org.apache.spark.deploy.master.Master说明：负责整个集群的资源调度及Application的管理。消息类型：接收Worker发送的消息1. RegisterWorker2. ExecutorStateChanged3. WorkerSchedulerState

2015-11-09 23:35:09 9550 4

原创 Intellij IDEA 14.1.4 Scala开发环境搭建

主要内容Intellij IDEA开发环境简介Intellij IDEA Scala开发环境搭建Intellij IDEA Spark开发环境搭建Intellij IDEA常见问题及解决方案Intellij IDEA常用快捷键1. Intellij IDEA开发环境简介具体介绍请参见：http://baike.baidu.com/link?url=SBY93H3SPkmcmIOmZ8H6

2015-10-29 23:10:25 72326 5

原创 Spark修炼之道（高级篇）——Spark源码阅读：第九节 Task执行成功时的结果处理

Task执行成功时的结果处理在上一节中，给出了Task在Executor上的运行代码演示，我们知道代码的最终运行通过的是TaskRunner方法class TaskRunner( execBackend: ExecutorBackend, val taskId: Long, val attemptNumber: Int, taskName: Strin

2015-10-29 19:34:56 6054 3

原创 Spark修炼之道（高级篇）——Spark源码阅读：第八节 Task执行

Task执行在上一节中，我们提到在Driver端CoarseGrainedSchedulerBackend中的launchTasks方法向Worker节点中的Executor发送启动任务命令，该命令的接收者是CoarseGrainedExecutorBackend（Standalone模式），类定义源码如下：private[spark] class CoarseGrainedExecutorBack

2015-10-29 12:00:24 6139 1

原创 Spark修炼之道（高级篇）——Spark源码阅读：第七节 resourceOffers方法与launchTasks方法解析

在上一节中，我们提到Task提交通过makeOffers提交到Executor上 // Make fake resource offers on just one executor private def makeOffers(executorId: String) { // Filter out executors under killing if (!exe

2015-10-28 21:38:42 5364 2

原创 Spark修炼之道（高级篇）——Spark源码阅读：第六节 Task提交

Task提交在上一节中的 Stage提交中我们提到，最终stage被封装成TaskSet，使用taskScheduler.submitTasks提交，具体代码如下：taskScheduler.submitTasks(new TaskSet( tasks.toArray, stage.id, stage.latestInfo.attemptId, stage.firstJobId, p

2015-10-27 23:49:05 5173

原创 Spark修炼之道（高级篇）——Spark源码阅读：第五节 Stage提交

Stage提交调用流程： 1.org.apache.spark.scheduler.DAGScheduler.handleJobSubmitted 2. org.apache.spark.scheduler.DAGScheduler.handleJobSubmitted.submitStage 3. org.apache.spark.scheduler.DAGScheduler.handleJ

2015-10-26 17:45:45 5254 1

原创 Spark修炼之道（高级篇）——Spark源码阅读：第二节 SparkContext的创建

博文推荐：http://blog.youkuaiyun.com/anzhsoft/article/details/39268963，由大神张安站写的Spark架构原理，使用Spark版本为1.2，本文以Spark 1.5.0为蓝本，介绍Spark应用程序的执行流程。本文及后面的源码分析都以下列代码为样板import org.apache.spark.{SparkConf, SparkContext}obje

2015-10-25 00:03:42 7524 4

原创 Spark修炼之道（高级篇）——Spark源码阅读：第四节 Stage划分

Stage划分在上一节中我们讲了 Spark Job的提交，在该讲中我们提到，当rdd触发action操作之后，会调用SparkContext的runJob方法，最后调用的DAGScheduler.handleJobSubmitted方法完成整个job的提交。然后DAGScheduler根据RDD的lineage进行Stage划分，再生成TaskSet，由TaskScheduler向集群申请资源，最

2015-10-24 23:48:04 7076 4

原创 Spark修炼之道（高级篇）——Spark源码阅读：第三节 Spark Job的提交

前一我们分析了SparkContext的创建，这一节，我们介绍在RDD执行的时候，如何提交job进行分析，同样是下面的源码：import org.apache.spark.{SparkConf, SparkContext}object SparkWordCount{ def main(args: Array[String]) { if (args.length == 0) {

2015-10-19 23:48:16 9380 2

原创 Spark修炼之道（高级篇）——Spark源码阅读：第一节 Spark应用程序提交流程

spark-submit 脚本应用程序提交流程执行提交命令如下：root@sparkmaster:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/bin# ./spark-submit --master spark://sparkmaster:7077 --class SparkWordCount --executor-memory 1g /root/IdeaPr

2015-10-19 12:47:04 17983 1

原创 Spark 1.5.0 远程调试

Spark 1.5.0 远程调试作者：摇摆少年梦微信号：zhouzhihubeyond先决条件已安装好Spark集群，本例子中使用的是spark-1.5.0. 安装方法参见：http://blog.youkuaiyun.com/lovehuangjiaju/article/details/48494737已经安装好Intellij IDEA，本例中使用的是Intellij IDEA 14.1.4，具体安

2015-10-18 17:50:09 13524

原创 Spark修炼之道（基础篇）——Linux大数据开发基础：第十五节：基础正则表达式（一)

参考书目：鸟哥的LINUX私房菜基础学习篇（第三版） Linux Shell Scripting Cookbook本节主要内容基础正则表达式1. 基础正则表达式(1)^行开始符^匹配一行的开始，例如’^Spark’ 匹配所有Spark开始的行//grep -n表示查找到的结果显示行号root@sparkslave02:~/ShellLearning# grep

2015-10-07 22:29:08 5637

原创 Spark修炼之道（基础篇）——Linux大数据开发基础：第十四节：Shell编程入门（六)

本文主要内容case控制结构read命令管道1. case控制结构参考：http://blog.youkuaiyun.com/dreamtdp/article/details/8048720 case控制结构语法格式：case expression in pattern1 ) statements ;; pattern2 ) statement

2015-10-06 16:13:18 3315

原创 Spark修炼之道（基础篇）——Linux大数据开发基础：第十三节：Shell编程入门（五)

本节主要内容while循环控制结构if条件判断until循环控制结构1. while循环控制结构本节例子来源：http://blog.chinaunix.net/uid-25880122-id-2901409.html 语法格式：while expressiondocommandcommanddone（1）计数器格式适用于循环次数已知或固定时root@sparkslave02:~/

2015-10-05 21:14:54 4994 1

原创 Spark修炼之道（基础篇）——Linux大数据开发基础：第十二节：Shell编程入门（四)

本节主要内容shell脚本调试shell函数shell控制结构初步1. shell脚本调试当脚本出错时，需要对脚本进行调试，学会脚本调试是每个linux系统使用者必备技能。shell脚本调试无需任何额外的工具，只需要要在脚本文件前加-x选项即可，创建debug.sh文件，内容如下：#!/bin/bash#Filename: debug.shecho "scripting"echo "d

2015-10-05 17:44:49 3928