- 博客(21)
- 资源 (1)
- 收藏
- 关注
翻译 hive map side join
hive map side join If all but one of the tables being joined are small, the join can be performed as a map only job. The querySELECT /*+ MAPJOIN(b) */ a.key, a.value
2016-05-13 14:12:14
519
翻译 hive left semi join
SELECT nameFROM table_1 a INNER JOIN table_2 b ON a.name=b.nameSELECT nameFROM table_1 a LEFT SEMI JOIN table_2 b ON (a.name=b.name)difference between inner join and left semi join:hiv
2016-05-13 11:25:43
718
翻译 scala——traits
Traits, 类似于java中的接口,是用来定义object的方法。类似JAVA 8,在scala中,traits中的方法不是必须全部实现,可以为某个方法定义好默认的方法体,如:trait Similarity { def isSimilar(x: Any): Boolean def isNotSimilar(x: Any): Boolean = !isSimilar(x)}
2016-05-07 22:56:59
468
翻译 scala tutorial_class
class Point(xc: Int, yc: Int) { var x: Int = xc var y: Int = yc def move(dx: Int, dy: Int) { x = x + dx y = y + dy } override def toString(): String = "(" + x + ", " + y + ")";}以上定义
2016-05-07 17:54:31
362
翻译 scala tutorial
1 scala的面向对象:在scala中,万物皆对象。通过class和traits来定义对象的类型和行为。2 函数式 scala:scala死一种函数式编程语言,其中任何函数都表示一个值,其可以通过轻量级的语法定义匿名函数,并且支持函数间的值传递,递归调用以及柯里化currying.3 unified types:在scala中,所有的值和函数都是object.如下图展示的sc
2016-05-07 11:23:01
527
翻译 join
INNER JOIN: in an inner join, records are discarded unless join criteria finds matching records in every table being joined.inner join,仅当数据在join两端都出现时,才会留下来;Most of time,Hive will use a separate
2016-04-20 18:14:27
255
转载 hive 子查询、union 、left join
建表语句:create table tb_in_base( id bigint, devid bigint, devname string ) partitioned by (job_time bigint) row format delimited fields terminated by ',';create table tb_i
2016-02-18 11:02:34
1044
转载 Schema on Read vs Schema on Write
Schema on Read vs Schema on Write in Business IntelligenceWhen starting build out a new BI strategy. There are more options now than ever before. Gone are the days of just creating a massive sta
2016-02-17 21:01:30
1995
转载 六款大数据采集平台的架构分析
随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台:Apache FlumeFluentdLogstashChukwaScribeSplunk Forwarder大数据平台与数据采集任何完整的大数据平台,一般包括以下的几个过程:数据采集数据存储数据处理数据展现(可视化,报表和监控)其中,数据采集是所有数据系统必
2016-01-25 10:22:24
14061
1
翻译 深入浅出统计学
Pie charts :when are pie charts useful?Pie charts can be useful if you want to compare basic proportions,it is usually easy to tell at a glance which groups has a high frequency,compared with oth
2016-01-20 18:07:32
562
转载 LZO,LZOP
在hadoop中使用lzo的压缩算法可以减小数据的大小和数据的磁盘读写时间,不仅如此,lzo是基于block分块的,这样他就允许数据被分解成chunk,并行的被hadoop处理。这样的特点,就可以让lzo在hadoop上成为一种非常好用的压缩格式。lzo本身不是splitable的,所以当数据为text格式时,用lzo压缩出来的数据当做job的输入是一个文件作为一个map。但是sequence
2016-01-12 10:02:14
4085
转载 Map side join
1、原理: 之所以存在reduce side join,是因为在map阶段不能获取所有需要的join字段,即:同一个key对应的字段可能位于不同map中。但 Reduce side join是非常低效的,因为shuffle阶段要进行大量的数据传输。Map side join是针对以下场景进行的优化:两个待连接表中,有一个表非常大,而另一个表非常小,以至于小表可以直接存放到内存中。
2016-01-06 17:17:16
506
翻译 Mapreduce pattern(chapter3)
A single reducer getting a lot of data is bad for a few reasons:单独一个需要大量数据的reduce任务所带来的问题1 The sort can become an expensive operation when it has too many records and has to do most of the sorting
2016-01-05 11:38:12
309
转载 oozie ErrorCode 含义
E0000(XLog.STD, "System property 'oozie.home.dir' not defined"),E0001(XLog.OPS, "Could not create runtime directory, {0}"),E0002(XLog.STD, "System is in safe mode"),E0003(XLog.OPS, "Oozie home d
2016-01-01 11:11:30
1557
转载 MapReduce 调优
Job Tracker Related严格来说,下面这个配置项,是决定HDFS文件block数量的多少(也就是文件个数),但是它会间接的影响Job Tracker的调度和内存的占用(其实更能影响name node内存的使用)。dfs.block.sizemapred.map.tasks.speculative.execution=truemapred.red
2015-12-25 12:43:19
205
转载 mapreduce优化
mapreduce程序效率的瓶颈在于两点: 1:计算机性能 2:I/O操作优化优化无非包括时间性能和空间性能两个方面,存在一下常见的优化策略: 1:输入的文件尽量采用大文件 众多的小文件会导致map数量众多,每个新的map任务都会造成一些性能的损失。所以可以将一些小文件在进行mapreduce操作前进行一些预处理,整合成大文件,或者直接采用ConbinFileInp
2015-12-25 12:39:14
254
转载 Spring MVC Return
import java.util.HashMap;import java.util.Map;import org.springframework.stereotype.Controller;import org.springframework.ui.Model;import org.springframework.web.bind.annotation.RequestMapping;i
2015-12-22 23:08:07
294
转载 Hadoop 2.0 – HA功能中ZKFC对NN状态的控制
1.基本原理zk的基本特性:(1) 可靠存储小量数据且提供强一致性(2) ephemeral node, 在创建它的客户端关闭后,可以自动删除(3) 对于node状态的变化,可以提供异步的通知(watcher)zk在zkfc中可以提供的功能:(1) Failure detector: 及时发现出故障的NN,并通知zkfc(2) Active node locat
2015-12-13 20:59:59
356
转载 Hadoop2.0的HA介绍
1 概述 在hadoop2.0之前,namenode只有一个,存在单点问题(虽然hadoop1.0有secondarynamenode,checkpointnode,buckcupnode这些,但是单点问题依然存在),在hadoop2.0引入了HA机制。hadoop2.0的HA机制官方介绍了有2种方式,一种是NFS(Network File System)方式,另外一种是QJM(Quoru
2015-12-13 20:41:59
243
转载 linux mount
在Linux下访问Windows分区 在Linux中,如果你要使用储存设备 (Mo、硬盘、光驱等) ,就得先将它挂上 (Mount),而当储存设备挂上了之后,就可以把它当成一个目录来进行访问。挂上一个设备使用mount命令。 在使用mount这个指令时,至少要先知道下列三种信息: 1. 要Mount对象的文件系统类型? (File system type) 2. 要Mount对
2015-12-13 11:10:21
240
转载 每天一个linux命令(4):mkdir命令
linux mkdir 命令用来创建指定的名称的目录,要求创建目录的用户在当前目录中具有写权限,并且指定的目录名不能是当前目录中已有的目录。1.命令格式:mkdir [选项] 目录...2.命令功能:通过 mkdir 命令可以实现在指定位置创建以 DirName(指定的文件名)命名的文件夹或目录。要创建文件夹或目录的用户必须对所创建的文件夹的父文件夹具有写权限。并且
2015-12-13 11:05:20
188
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人