
JAVA和hadoop
文章平均质量分 68
jackycmu
我要成为一个优秀的googler
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Java上的try catch并不影响性能
转自: http://devspirit.blog.163.com/blog/static/164255315201214114218742/ 最近因为担心自己开发的库不稳定,会影响到接入产品的正常运行,在代码的不少地方都加了一层try catch,主要是为了避免自己的一些异常抛出导致,应用crash,捕获的异常也并没有做什么特别的处理,只是在log中输出该异常的信息。try ca转载 2014-01-15 04:06:21 · 1076 阅读 · 0 评论 -
hadoop作业调优参数整理及原理
1 Map side tuning参数 1.1 MapTask运行内部原理 当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都会对应存在一个内存buffer(MapOutpu转载 2014-04-05 06:30:26 · 456 阅读 · 0 评论 -
Hadoop中Mapper类的setup()函数在什么地方调用
经过跟踪hadoop源码发现,Mapper类的setup()函数在Mapper类的run()函数中被调用。 向hadoop提交job后,hadoop会在MapTask的runNewMapper()或者runOldMapper()函数中使用反馈机制实例化具体的Mapper子类,然后调用这个对象的run()函数,其中setup()函数就在这个函数的开始被调用,因为hadoop会向setup()函转载 2014-04-05 03:04:34 · 689 阅读 · 0 评论 -
Hadoop 性能调优 重要参数设置技巧
这里主要针对Mapreduce的性能调优。 这一两个月在做mapreduce的性能调优,有些心得,还是要记下来的,以郷后人~ 这里主要涉及的参数包括: HDFS:dfs.block.sizeMapredure:io.sort.mbio.sort.spill.percentmapred.local.dirmapred.map.tasks & mapred.tasktracker.m转载 2014-04-05 03:52:48 · 537 阅读 · 0 评论 -
hadoop 配置项的调优
dfs.block.size 决定HDFS文件block数量的多少(文件个数),它会间接的影响Job Tracker的调度和内存的占用(更影响内存的使用), mapred.map.tasks.speculative.execution=true mapred.reduce.tasks.speculative.execution=true 这是两个推测式执行的配置项,默认是true转载 2014-04-05 03:46:45 · 506 阅读 · 0 评论 -
数据类型和json
从结构上看,所有的数据(data)最终都可以分解成三种类型: 第一种类型是标量(scalar),也就是一个单独的字符串(string)或数字(numbers),比如"北京"这个单独的词。 第二种类型是序列(sequence),也就是若干个相关的数据按照一定顺序并列在一起,又叫做数组(array)或列表(List),比如"北京,上海"。 第三种类型是映射(mapping),也就转载 2014-05-10 11:07:32 · 553 阅读 · 0 评论