- 博客(13)
- 资源 (2)
- 收藏
- 关注
原创 scala隐士转换
scala的隐式转化一、前言学过java我们都知道,java中的继承是对类的增强,java中的代理、装饰是对对象方法的增强。而在scala中,隐式转换和隐式参数是Scala中两个非常强大的功能,隐式的对类的方法进行增强,丰富现有类库的功能 。利用隐式转换和隐式参数,你可以提供优雅的类库,对类库的使用者隐匿掉那些枯燥乏味的细节。而所谓的隐式转化函数,是指那种以
2017-07-20 21:49:42
754
转载 hadoop on yarn and spark on yarn
1. Yarn架构1.1 简介1.1.1 架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等几个组件构成。YARN总体上仍然是Master/Slave结构,在整个资源管理框架中,ResourceManager为Master,NodeManager为Slave,ResourceMa
2017-07-20 12:11:34
629
原创 mapreduce优化
1.流程简介输入: InputFormat类MapReduce作业的输入数据的规格是通过InputFormat类及其子类给出的。有以下几项主要功能:输入数据的有效性检测。将输入数据切分为逻辑块(InputSplit),并把他们分配给对应的Map任务。实例化一个能在每个InputSplit类上工作的RecordReader对象,
2017-07-20 12:01:28
415
原创 kafka安装-2
单机版: 1.安装并配置zk(一台虚拟机) Vi zoo.cfg ls /只有一个zookeeper节点, 2.安装并配置Kafka(单机版)解压安装配置server.properties启动kafkaLs / 多了好多其他节点3.启动zk
2017-07-18 10:17:24
244
原创 kafka入门
Publish / Subscribe Messaging 发布/订阅消息在讨论kafka的特性之前,需要理解发布订阅消息的概念及其重要性。发布-订阅消息队列的特征是消息的sender(publisher)并不直接将data(message)发送给receiver, publisher以某种方法对消息进行分类,而receiver (subscriber) 会订阅接收特定类别的消息。P
2017-07-18 09:52:34
540
转载 spark mllib 入门学习(一)--聚类算法
本帖最后由 hero1122 于 2017-7-17 16:32 编辑1.概述首先,笔者要先申明,我也是初学机器学习领域的内容,虽然我是从事大数据平台开发的工作,但是工作中确实没有跟spark MLlib打过交道,所以文中如果有描述错误的地方,还请大家指正。机器学习对高数、python的基础都有一定的要求,但是入门我觉得最重要的是理论联系实际,了解机器学习基本概念,然后结合sp
2017-07-18 09:45:44
700
转载 SparkStreaming之 StreamingContext、DStream、Receiver深度剖析-3
(1)对StreamingContext功能及源码剖析; (2)对DStream功能及源码剖析; (3)第三部分对Receiver功能及源码剖析; (4)将StreamingContext、DStream、Receiver结合起来分析其流程。一、StreamingContext功能及源码剖析: 1、 通过StreamingContext对象jssc,创建应用程序主入口,并连
2017-07-16 14:02:11
371
转载 SparkStreaming之scala开发方式f-2
Scala方式开发第一步,接收数据源:第二步,flatMap操作:第三步,map操作:第四步,reduce操作:第五步,print()等操作:第六步:awaitTermination操作
2017-07-16 13:55:04
480
转载 SparkStreaming入门-1
SparkStreaming优点:1、提供了丰富的API,企业中能快速实现各种复杂的业务逻辑。2、流入Spark Streaming的数据流通过和机器学习算法结合,完成机器模拟和图计算。3、Spark Streaming基于Spark优秀的血统。 SparkStreaming能不能像Storm一样,一条一条处理数据?Storm处理数据的方式是以条为单
2017-07-16 13:52:48
547
转载 Spark Streaming基于kafka的Direct详解
本博文主要包括一下内容: 1,SparkStreaming on Kafka Direct工作原理机制 2,SparkStreaming on Kafka Direct 案例实战 3,SparkStreaming on Kafka Direct源码解析一:SparkStreaming on Kafka Direct工作原理机制:1、Direct方式特点:(1)D
2017-07-16 11:48:49
854
转载 http://blog.youkuaiyun.com/erfucun/article/details/52269610
本博文讲述的内容主要包括:1,SparkStreaming on Kafka Receiver 工作原理机制 2,SparkStreaming on Kafka Receiver案例实战 3,SparkStreaming on Kafka Receiver源码解析一:SparkStreaming on Kafka Receiver 简介:1、Spark-Stream
2017-07-16 11:47:00
459
转载 spark架构
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数
2017-07-12 10:42:18
442
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅