- 博客(25)
- 资源 (3)
- 收藏
- 关注

原创 浅谈对于RDD的认识
浅谈对于RDD的认识RDD(Resilient Distributed Datasets)弹性分布式数据集,是在集群应用中分享数据的一种高效,通用,容错的抽象,是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。RDD是只读的,不可变的数据集。RDD也是容错的,假如其中一个RDD坏掉,RDD中有记录之前的依
2014-07-23 09:01:44
7818

原创 hadoop-2.2.0+spark1.1.0安装过程
hadoop-2.2.0+spark1.1.0安装过程首先介绍一下整个过程中需要用到的一些软件虚拟机vmwareworkstation 10Linux版本 CentOS 6.4Jdk jdk-7u21-linux-i586.tar.gz终端SecureCRTHadoop2.2.0Spark1.1.0scala2.10.4 本人是采用在32位的windowns
2014-07-14 14:28:10
7255
原创 kafka数据保存时间问题与kafka的性能测试
kafka数据保存时间问题。 Kafka删除检查主要有两种,任一达到要求即执行。(1) 按时间粒度,可设置分钟或者小时。达到时间进行处理。(2) 按文件大小限制,设置最大文件大小,达到上限即进行处理。可设置文件大小检查周期。kafka的性能测试kafka中有自带的性能测试代码,测试结果均来自kafka自带的测试代码 ,位于bin/kafka-producer-perf-test.sh。
2015-10-15 18:59:19
21876
原创 zookeeper简介与安装过程
zookeeper是一个为分布式应用所设计的开源协调服务。设计目的是为了减轻分布式应用程序所承担的协调服务。zookeeper的设计目标:(1)简单化。(2)健壮性。(3)有序性。(4)速度优势。zookeeper安装步骤如下。
2015-10-01 19:26:36
850
原创 hadoop之mapper类
Mapper类有四个方法:(1)protected void setup(Context context)(2)protected void map(KEYIN key,VALUEIN value,Context context)(3)protected void cleanup(Context context)(4)public void run(Context context)setup()方法一般是在实例化时用户程序需要做的一些初始化工作(如打开一个全局文件,建立数据库链接等等)clean
2014-09-26 20:13:15
9141
原创 java调用R
环境:win7 32位 jdk1.7 R 2.15.0 java调用r主要有三种方式,rJava,rServer还有rCaller,这边主要讲用rJava调用rJava是一个R语言和Java语言的通信接口,通过底层JNI实现调用,允许在R中直接调用Java的对象和方法。由于rJava是底层接口,并使用JNI作为接口调用,所以效率非常高。在JRI的方案中,JVM直接通过内存直接加载RVM,调用过程性能几乎无损耗,因此是非常高效连接通道,是R和Java通信的首选开发包。
2014-09-10 10:19:54
19078
原创 Storm 简介
Nimbus :负责资源分配和任务调度, 把任务相关的元信息写入Zookeeper 相应目录。Supervisor :负责接受nimbus 分配的任务,启动和停止属于自己管理的worker 进程。Worker :运行具体处理组件逻辑的进程。Executor :运行spout/bolt 的线程Task : worker 中每一个spout/bolt 的线程称为一个task.Topology : storm 中运行的实时应用程序,消息在各个组件间流动形成逻辑上的拓扑结构。Spout :在一个topo
2014-08-20 10:30:05
1407
转载 R语言和hadoop
问题1: Hadoop的家族如此之强大,为什么还要结合R语言?a. Hadoop家族的强大之处,在于对大数据的处理,让原来的不可能(TB,PB数据量计算),成为了可能。b. R语言的强大之处,在于统计分析,在没有Hadoop之前,我们对于大数据的处理,要取样本,假设检验,做回归,长久以来R语言都是统计学家专属的工具。c. 从a和b两点,我们可以看出,hadoop重点是全量数
2014-07-27 16:26:13
7446
转载 Storm on YARN
部署 http://hortonworks.com/kb/storm-on-yarn-install-on-hdp2-beta-cluster/
2014-07-27 08:51:50
1758
原创 eclipse通过插件连接虚拟机里的hadoop集群
操作系统:windows 32位开发工具:eclipse 4.3Hadoop版本:hadoop2.2.0自行编译或者去网上下载相应的插件 hadoop-eclipse-plugin-2.2.0.jar拷贝到eclipse的plugins目录下。重启eclipse,打开windows->open perspective->other->map/redu
2014-07-24 15:59:56
3245
原创 什么是spark
Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,非常短小精悍。
2014-07-17 15:23:33
1138
原创 IDEA安装以及打包过程
(前提已经安装jdk配置好环境变量,还有已安装好scala。同时需要spark-assembly-1.0.0-hadoop2.2.0.jar包,该jar包在spark/lib目录下)官网下载13.1.3 ultimate版本 http://www.jetbrains.com/idea/download/企业版本试用期为30天,可以去网上搜注册机。这边提供一个name和key
2014-07-17 14:44:10
6274
原创 scala学习(三)
高阶函数Scala作为一门“函数式编程语言”,函数是一个值,能被传递和操作 头等函数 函数是一个值,在Scala中,函数能作为参数进行传递,函数能调用满足参数要求的不同的函数作为参数匿名函数 不命名的函数,匿名函数的作用域非常小,往往只在参数中使用,其作用范围即是调用该匿名函数参数的函数体柯里化 柯里化是指将接受两个参数的函数变
2014-07-15 18:15:03
827
原创 scala学习(二)
类(class) 类是对象的模板,通过构造类,能够使用new关键字声明一系列同结构的对象对象(object) 除了使用类构造对象模板,可以使用object构造单例对象继承继承是类的拓展特质 一个类只能继承自一个父类,但可以由多个特质拓展而成类定义 类成员主要包括字段(val跟var)、方法与函数(def),但Scala禁止使用同样的名
2014-07-15 10:15:33
2988
原创 scala学习笔记(一)
声明与定义val,常量声明var,变量声明def,函数声明type,类型声明class,类声明object,对象声明ScaLa没有任何操作符,所有的操作符运算都是对方法(函数)的调用标识符与命名首字符为字母,后续字符任意字母和数字,可后接下划线_首字符为操作符,后续字符为任意操作符以反引号“`
2014-07-14 17:01:18
1267
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人