一只懒虫^-^-优快云博客

原创 windows上通过vnc连接虚拟机中linux系统

windows上通过vnc连接虚拟机中linux系统

2014-07-26 10:11:23 33048

原创浅谈对于RDD的认识

浅谈对于RDD的认识RDD（Resilient Distributed Datasets）弹性分布式数据集，是在集群应用中分享数据的一种高效，通用，容错的抽象，是Spark提供的最重要的抽象的概念，它是一种有容错机制的特殊集合，可以分布在集群的节点上，以函数式编操作集合的方式，进行各种并行操作。RDD是只读的，不可变的数据集。RDD也是容错的，假如其中一个RDD坏掉，RDD中有记录之前的依

2014-07-23 09:01:44 7858

原创 hadoop-2.2.0+spark1.1.0安装过程

hadoop-2.2.0+spark1.1.0安装过程首先介绍一下整个过程中需要用到的一些软件虚拟机vmwareworkstation 10Linux版本 CentOS 6.4Jdk jdk-7u21-linux-i586.tar.gz终端SecureCRTHadoop2.2.0Spark1.1.0scala2.10.4 本人是采用在32位的windowns

2014-07-14 14:28:10 7277

原创 scala 及eclipse 插件安装

刚刚开始学习spark，需要用到scala，所以打算开始自学scala。

2014-07-14 12:20:41 14099

原创 kafka数据保存时间问题与kafka的性能测试

kafka数据保存时间问题。 Kafka删除检查主要有两种，任一达到要求即执行。（1）按时间粒度，可设置分钟或者小时。达到时间进行处理。（2）按文件大小限制，设置最大文件大小，达到上限即进行处理。可设置文件大小检查周期。kafka的性能测试kafka中有自带的性能测试代码，测试结果均来自kafka自带的测试代码，位于bin/kafka-producer-perf-test.sh。

2015-10-15 18:59:19 21943

原创 kafka介绍，安装以及简单的java调用kafka代码

kafka介绍，安装以及简单的java调用kafka代码

2015-10-01 20:50:53 27501 2

原创 zookeeper简介与安装过程

zookeeper是一个为分布式应用所设计的开源协调服务。设计目的是为了减轻分布式应用程序所承担的协调服务。zookeeper的设计目标：（1）简单化。（2）健壮性。（3）有序性。（4）速度优势。zookeeper安装步骤如下。

2015-10-01 19:26:36 880

Mapper类有四个方法：（1）protected void setup(Context context)（2）protected void map(KEYIN key,VALUEIN value,Context context)（3）protected void cleanup(Context context)（4）public void run(Context context)setup()方法一般是在实例化时用户程序需要做的一些初始化工作（如打开一个全局文件，建立数据库链接等等）clean

2014-09-26 20:13:15 9172

原创 java调用R

环境：win7 32位 jdk1.7 R 2.15.0 java调用r主要有三种方式，rJava，rServer还有rCaller，这边主要讲用rJava调用rJava是一个R语言和Java语言的通信接口，通过底层JNI实现调用，允许在R中直接调用Java的对象和方法。由于rJava是底层接口，并使用JNI作为接口调用，所以效率非常高。在JRI的方案中，JVM直接通过内存直接加载RVM，调用过程性能几乎无损耗，因此是非常高效连接通道，是R和Java通信的首选开发包。

2014-09-10 10:19:54 19115

原创 Storm 简介

Nimbus ：负责资源分配和任务调度, 把任务相关的元信息写入Zookeeper 相应目录。Supervisor ：负责接受nimbus 分配的任务，启动和停止属于自己管理的worker 进程。Worker ：运行具体处理组件逻辑的进程。Executor ：运行spout/bolt 的线程Task ： worker 中每一个spout/bolt 的线程称为一个task.Topology ： storm 中运行的实时应用程序，消息在各个组件间流动形成逻辑上的拓扑结构。Spout ：在一个topo

2014-08-20 10:30:05 1424

原创 spark应用程序的运行架构

spark应用程序运行架构介绍

2014-08-13 15:25:26 10356

原创 spark上安装mysql与hive

spark上安装mysql与hive

2014-08-07 20:13:55 7854

转载 RHadoop实践系列文章

发现一个很好的博客，主要讲R与hadoop的结合的文章RHadoop实践系列文章

2014-07-27 16:41:00 3197

转载 R语言和hadoop

问题1: Hadoop的家族如此之强大，为什么还要结合R语言？a. Hadoop家族的强大之处，在于对大数据的处理，让原来的不可能（TB,PB数据量计算），成为了可能。b. R语言的强大之处，在于统计分析，在没有Hadoop之前，我们对于大数据的处理，要取样本，假设检验，做回归，长久以来R语言都是统计学家专属的工具。c. 从a和b两点，我们可以看出，hadoop重点是全量数

2014-07-27 16:26:13 7476

转载 Storm on YARN

部署 http://hortonworks.com/kb/storm-on-yarn-install-on-hdp2-beta-cluster/

2014-07-27 08:51:50 1779

转载基于Spark on Yarn的淘宝数据挖掘平台

pdf

2014-07-27 08:49:43 2596

原创 hadoop format之后datanode起不了解决方法

安装完hadoop集群之后，跑了一些数据，然后format了

2014-07-26 10:23:36 2890

原创 eclipse通过插件连接虚拟机里的hadoop集群

操作系统：windows 32位开发工具：eclipse 4.3Hadoop版本：hadoop2.2.0自行编译或者去网上下载相应的插件 hadoop-eclipse-plugin-2.2.0.jar拷贝到eclipse的plugins目录下。重启eclipse，打开windows->open perspective->other->map/redu

2014-07-24 15:59:56 3272

原创常用简单linux shell命令

简单linux shell命令shutdown -h

2014-07-19 21:09:58 1083

原创什么是spark

Spark是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加快速。Spark非常小巧玲珑，由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala，项目的core部分的代码只有63个Scala文件，非常短小精悍。

2014-07-17 15:23:33 1159

原创 scala

什么是scala？scala，是scalable

2014-07-17 15:07:37 881

原创 IDEA安装以及打包过程

（前提已经安装jdk配置好环境变量，还有已安装好scala。同时需要spark-assembly-1.0.0-hadoop2.2.0.jar包，该jar包在spark/lib目录下）官网下载13.1.3 ultimate版本 http://www.jetbrains.com/idea/download/企业版本试用期为30天，可以去网上搜注册机。这边提供一个name和key

2014-07-17 14:44:10 6316

原创 scala学习（三）

高阶函数Scala作为一门“函数式编程语言”，函数是一个值，能被传递和操作头等函数函数是一个值，在Scala中，函数能作为参数进行传递，函数能调用满足参数要求的不同的函数作为参数匿名函数不命名的函数，匿名函数的作用域非常小，往往只在参数中使用，其作用范围即是调用该匿名函数参数的函数体柯里化柯里化是指将接受两个参数的函数变

2014-07-15 18:15:03 849

原创 scala学习（二）

类(class) 类是对象的模板，通过构造类，能够使用new关键字声明一系列同结构的对象对象(object) 除了使用类构造对象模板，可以使用object构造单例对象继承继承是类的拓展特质一个类只能继承自一个父类，但可以由多个特质拓展而成类定义类成员主要包括字段(val跟var)、方法与函数(def)，但Scala禁止使用同样的名

2014-07-15 10:15:33 3024

原创 scala学习笔记（一）

声明与定义val，常量声明var，变量声明def，函数声明type，类型声明class，类声明object，对象声明ScaLa没有任何操作符，所有的操作符运算都是对方法(函数)的调用标识符与命名首字符为字母，后续字符任意字母和数字，可后接下划线_首字符为操作符，后续字符为任意操作符以反引号“`

2014-07-14 17:01:18 1292

独家记忆