- 博客(20)
- 收藏
- 关注
原创 Intellij IDEA 中maven install报surefire错
主要报错内容如下所示:解决方案:找到仓库中的repository\org\apache\maven\surefire\surefire-booter\2.10此文件大小为1kb时是不对的,从网上找到正确的3kb文件替换掉就可以了
2015-10-13 16:28:55
1035
原创 hive中求top k的两种方式
一、用rank() over()select *from ( select event_id, event_name, channel, pv, uv, rank() over (partition by channel order by pv desc,uv desc) as rank from ( selec
2015-06-10 19:20:41
4595
原创 第一个mapreduce程序——执行和详解
这是我参考的一篇文章,主要是代码部分,计算平均数的程序,相比于单词计数那个程序比较容易理解。http://www.linuxidc.com/Linux/2014-03/98262.htm在eclipse中新建java工程,新建java类,需要导入的包有:源代码是:package mapreduce;import java.io.IOException;impo
2015-05-26 16:32:26
363
转载 Ubuntu单机模式安装Hadoop——亲验
一、在Ubuntu下创建hadoop组和hadoop用户 增加hadoop用户组,同时在该组里增加hadoop用户,后续在涉及到hadoop操作时,我们使用该用户。1、创建hadoop用户组 2、创建hadoop用户 sudo adduser -ingroup hadoop hadoop
2015-05-19 14:47:41
829
原创 hive 数据倾斜
数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。一、 空值数据倾斜场景:如日志中,常会有信息丢失的问题,比如全网日志
2015-05-13 10:03:50
1012
原创 hive中的map/reduce
MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map 任务,然后分配到不同的节点上去执行,每一个Map 任务处理输入数据中的一部分,当Map 任务完成后,它会生成一些中间文件,这些中间文件将会作为Reduce 任务的输入数据。Reduce 任务的主要目标就是把前面若干个Map 的输出汇总到
2015-05-11 11:11:07
1409
转载 Hive——SerDe
一、背景1、当进程在进行远程通信时,彼此可以发送各种类型的数据,无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输,称为对象序列化;接收方则需要把字节序列恢复为对象,称为对象的反序列化。2、Hive的反序列化是对key/value反序列化成hive table的每个列的值。3、Hive可以方便的将数据加载到表中而不需要对数
2015-05-07 16:21:16
501
转载 hive优化之控制hive任务中的reduce数
1. Hive自己如何确定reduce数: reduce个数的设定极大影响任务执行效率,不指定reduce个数的情况下,Hive会猜测确定一个reduce个数,基于以下两个设定:hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G) hive.exec.reducers.max(每个任务最大的redu
2015-04-21 10:46:50
586
转载 hive优化之控制hive任务中的map数
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有
2015-04-21 10:38:22
384
原创 图片文件和二进制流的转换
import java.awt.image.BufferedImage; import java.io.ByteArrayInputStream; import java.io.ByteArrayOutputStream; import java.io.File; import java.io.IOException; import javax.imageio.
2015-03-14 21:53:59
573
原创 java多线程(3)----阻塞队列
阻塞队列与普通队列的区别在于,当队列是空的时,从队列中获取元素的操作将会被阻塞,或者当队列是满时,往队列里添加元素的操作会被阻塞。试图从空的阻塞队列中获取元素的线程将会被阻塞,直到其他的线程往空的队列插入新的元素。同样,试图往已满的阻塞队列中添加新元素的线程同样也会被阻塞,直到其他的线程使队列重新变得空闲起来,如从队列中移除一个或者多个元素,或者完全清空队列。package blockingQ
2015-03-08 20:57:14
331
原创 大众点评电话面试
昨天接了个大众点评的面试,面试官是个年轻的小哥儿,声音挺好听的,感觉也是刚去不久。相比阿里,小哥儿问的可是够详细,简历上每个和技术相关的东西一一被问,还好写的够真实。先说说问了哪些吧?1、java中抽象方法和接口的区别2、java多线程的实现方式3、多线程安全(不会)4、notify()和wait()的关系-------这个问题最亏了,最基本的Object类方法,从线程那问
2015-03-06 21:34:06
1084
原创 Java内存分配
Java程序运行在JVM(Java Virtual Machine)上,可以把JVM理解成Java程序和操作系统之间的桥梁,JVM实现了Java的平台无关性。每一个应用程序都对应唯一的一个JVM实例,每一个JVM实例都有自己的内存区域,互不影响。并且这些内存区域是所有线程共享的。一、栈:存放基本类型的数据和对象的引用,但对象本身不存放在栈中,而是存放在堆中。二、堆:用来存放动态产生的数
2015-03-06 19:56:04
391
原创 java面试题
1、类变量和实例变量的区别类变量也叫静态变量,也就是在变量前加了static 的变量;实例变量也叫对象变量,即没加static 的变量;区别在于:类变量是所有对象共有,其中一个对象将它值改变,其他对象得到的就是改变后的结果;而实例变量则属对象私有,某一个对象将其值改变,不影响其他对象当Java程序执行时,类的字节码文件被加载到内存,如果该类没有创建对象,类的
2015-03-06 16:39:33
325
原创 HashMap的实现原理
1、HashMap的数据结构这是哈希表,由数组和链表组成2、HashMap的存取 HashMap的功能是通过“键(key)”能够快速的找到“值”。下面我们分析下HashMap存数据的基本流程: 1、 当调用put(key,value)时,首先获取key的hashcode,int hash = key.hashCode(); 2、 再把ha
2015-03-05 14:18:01
308
原创 java 多线程(2)---同步
一、线程的状态1、新状态:线程对象已经创建,还没有在其上调用start()方法。2、可运行状态:当线程有资格运行,但调度程序还没有把它选定为运行线程时线程所处的状态。当start()方法调用时,线程首先进入可运行状态。在线程运行之后或者从阻塞、等待或睡眠状态回来后,也返回到可运行状态。3、运行状态:线程调度程序从可运行池中选择一个线程作为当前线程时线程所处的状态。这也是
2015-03-05 10:08:54
467
原创 堆栈和队列
面试时被问到,堆栈和队列的区别。我都蒙了,堆栈难道不是两种数据结构吗?在此细致分析一下数据结构方面的堆和栈:堆分为大顶堆和小顶堆,是二叉树结构。java编程所用的堆实际上指的就是(满足堆性质的)优先队列的一种数据结构,第1个元素有最高的优先权,;栈实际上就是满足后进先出的性质的数据结构。内存空间中的堆和栈:栈(操作系统):由操作系统自动分配释放 ,存放函数的参数值,局部变量
2015-03-04 20:07:02
346
原创 java垃圾回收机制
一、回收什么?1、当没有对象引用指向原先分配给某个对象的内存时,该内存便成为垃圾2、不是回收对象,而是回收对象所占的内存在回收之余,也会清除内存碎片引用:垃圾收集器的主要功能有(1) 定期发现那些对象不再被引用,并把这些对象占据的堆空间释放出来。(2) 类似于操作系统的内存管理,垃圾收集器还需要处理由于对象动态生成与销毁产生的堆碎块,以便更有效的利用虚拟机内存。
2015-03-04 13:44:56
337
转载 P问题、NP问题、NPC问题、NP难问题的概念
P问题、NP问题、NPC问题、NP难问题的概念 来源: 朱亚东的日志 学了那么久算法,稀里糊涂的,抽空整理了下这些基本的概念,希望有所帮助。 你会经常看到网上出现“这怎么做,这不是NP问题吗”、“这个只有搜了,这已经被证明是NP问题了”之类的话。你要知道,大多数人此时所说的NP问题其实都是指的NPC问题。他们没有搞清楚NP问题和NPC问题的概念。NP问
2012-05-07 10:39:42
620
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人