kimsho29-优快云博客

原创 Spark在Yarn上的动态资源分配

参考地址：http://spark.apache.org/docs/1.5.2/job-scheduling.html#configuration-and-setup1.配置hadoop/etc/yarn-site.xml yarn.nodemanager.aux-services mapreduce_shuffle,spark_shuffle yar

2016-09-20 11:18:35 2512

转载 R通过RJDBC连接外部数据库

转载自：http://blog.youkuaiyun.com/faith_mo_blog/article/details/412456331、连接hivelibrary(RJDBC)drvHadoop/impala-jdbc-0.5.2”,pattern=”jar$”,full.names=TRUE,recursive=TRUE))conn2、连接MySQL

2016-06-26 10:25:30 3687

转载 SparkR安装部署及数据分析实例

转载自：http://www.cnblogs.com/payton/p/4227770.html1. SparkR的安装配置1.1. R与Rstudio的安装1.1.1. R的安装我们的工作环境都是在Ubuntu下操作的，所以只介绍Ubuntu下安装R的方法：1）在/etc/apt/sources.list添加源

2016-06-26 10:19:41 1409

原创 Hive on Spark配置总结

Hive on spark

2016-06-04 14:13:11 7666

转载 CDH HUE配置自定义MySql数据库

ref：http://www.cloudera.com/documentation/enterprise/latest/topics/cm_ig_mysql.html#cmig_topic_5_5For information about installing and configuring a MySQL database , see MySQL Database.I

2016-05-28 18:20:47 6345

翻译 HDFS ACLs访问控制权限

HDFS ACLs

2016-05-15 18:04:39 5849

翻译 CDH 5.7.0离线安装指南

系统环境硬件环境：window下VMware 11虚拟机操作系统：红帽6.5服务器版本Cloudera Manager：5.7CDH：CDH-5.7.0-1.cdh5.7.0.p0.45-el6.parcel元数据库：Mysql 5.6参考说明http://www.cloudera.com/documentation/enterprise/latest/topics/i

2016-05-08 20:47:51 3834

原创 Hiveserver2 HA高可用

Hiveserver2 HA高可用

2016-04-21 18:08:03 3194

转载 Spark框架简介

简介了解系统架构是第一件事，那么系统都由什么节点构成提供什么服务呢？框架从框架图中可以看到 - 整个集群分为 Master 节点和 Worker 节点，相当于 Hadoop 的 Master 和 Slave 节点。 - Master 节点上常驻 Master 守护进程，负责管理全部的 Worker 节点。 - Worker 节点上常驻 Worker 守护进程，负责与 Master 节点通信

2016-04-17 23:31:15 3136

翻译 MapReduce框架在Yarn上的详解

MapReduce任务解析在YARN上一个MapReduce任务叫做一个Job。一个Job的主程序在MapReduce框架上实现的应用名称叫MRAppMaster.MapReduce任务的Timeline这是一个MapReduce作业执行时间：Map 阶段：根据数据块会执行多个Map TaskReduce 阶段：根据配置项会执行多个Reduce Task

2016-04-11 23:04:30 3775

翻译 Hadoop简介

Hadoop 2简介

2016-04-09 14:51:08 579

原创 hive导出列名整理

hive -e 'set hive.cli.print.header=true;select * from tablename;'bin/hive -S -e "use default; describe table;" | awk -F" " '{print $1}' > ~/filename.txthive -S -e 'SET hive.cli.print.heade

2016-04-08 23:43:19 7384

原创 OOZIE-4.2.0

准备环境编译环境变量配置MySQL准备环境下载Oozie工作流 http://oozie.apache.org/ oozie-4.2.0下载依赖 http://oozie.apache.org/docs/4.2.0/DG_QuickStart.html ext-2.2.zip解压后 tar -zxvf oozie-4.2.0.tar.gz cd oozie-4.2.0修改POM文件

2015-11-24 00:15:42 835

原创 Scala隐式转换实战

隐式方法隐式参数隐式类隐式对象隐式方法import scala.io.Sourceimport java.io.Fileclass RichFile (val file : File){ def read = Source.fromFile(file.getPath)}//导入隐式

2015-07-30 14:47:55 601

原创 Scala各种类型实战

结构类型Infix typeSelf_TypeDependency InjectionAbstract Types

2015-07-28 15:53:20 575

原创 Scala进阶实战

泛型类型变量boundsView BoundContext BoundsManifest ClassTag多重界定类型约束协变逆变

2015-07-27 11:23:09 560

原创 Scala集合操作指南

Scala集合所有集合都扩展自Iterable对于几乎所有集合类，Scala都同时提供了可变的和不可变的版本

2015-07-26 16:00:08 682

原创 Scala高阶编程指南

Scala高阶函数高阶函数SAM转换Curring模式匹配基本TypeArrayListTupleCase Class提取器Option

2015-07-25 22:17:51 497

原创 Scala进阶编程指南

Scala进阶编程指南包和引入访问权限文件读写正则表达式内部函数偏函数闭包

2015-07-25 15:14:09 581

原创 Scala基础编程指南

Scala基础知识Scala基础知识函数定义流程控制函数定义函数的定义以def开始。然后是函数名，跟着是括号里带有冒号分隔的参数列表如（id : Int）,最后是返回类型等号。函数的每个参数都必须带有前缀冒号的类型标注，因为scala编译器无法推断函数的参数类型。def doWhile(id : Int):Unit={ var line = ""+id}流程控制三元表达符val fil

2015-07-24 20:01:33 669

转载 Hive 内建操作符与函数开发

第一部分：关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: •小于比较: •小于等于比较: •大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE

2015-07-24 10:04:42 426

转载 Hive安装以及部署(Ubuntu-MySql)

下载Hive安装包http://hive.apache.org/downloads.html根据需求下载相应的安装包解压安装默认的数据存放路径hdfs:/user/hive/warehouse/userHive配置文件主要从默认模版创建hive-site.xml和hive-env.shcp hive-default.xml.templ

2015-07-24 09:43:59 1066

原创 Scala开发环境的搭建和HelloWorld

Scala是一门函数式编程和面向对象编程的基础之上构建的编程语言。下面我们来看怎么搭建开发环境，因为scala是基于JVM上运行的所以需要下载Java。首先下载Java和Scalahttp://www.scala-lang.org/http://www.oracle.com/technetwork/java/javase/download

2015-07-24 08:23:41 508

ksh的博客