自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 hadoop jobtracker结构分析(0.20)

浏览hadoop代码时整理的jobtracker部分的脑图, 学习hadoop的同学可能会有帮助, 仅供参考

2011-09-01 21:20:07 1650

原创 用Python实现一个细粒度hadoop作业监控分析工具

在使用或者管理维护hadoop集群的时候,监控工具是必不可少的,hadoop集群相关的监控工具有ganglia,chukwa,功能强大,可以监控整个集群的资源使用状况。但是面对一些问题,比如具体到单个job,mapper,ruducer粒度的测试,profiling,性能调优等,ganglia,chukwa等集群监控工具的监控粒度似乎有些大,好像没有提供针对单个job->task->task-attempt级别的性能数据采集与监控(对它们了解比较少,可能有这个功能我没找到?)正好最近在尝试优化mapredu

2011-01-30 16:19:00 3765

原创 Bash中使用管道时如何正确捕捉返回值

工作中需要构造一个数据传输工具,用来抓取ftp前端机的web日志并直接写入HDFS,该工具直接作为hadoop mapreduce任务定时执行,所以最好不使用文件脚本以免去分发文件的繁琐,能一句命令搞定最好。如何抓取ftp前端机的web日志并写入HDFS? 管道(pipe),命令如下:wget $SRC_URL --limit-rate=%s --tries=1 -O - | hadoop fs -put - $DESTPATH一行命令,可以直接当成-mapper的参数,不需要额外写文件脚本

2010-12-28 23:29:00 3483

原创 HeartSurface & matplotlib

1. 啥是HeartSurface?http://mathworld.wolfram.com/HeartSurface.html2. numpy不能解代数方程,只能暴力求解 -_-!!3. 画3D图形估计mayavi给力,有机会试用一下

2010-12-26 14:38:00 1313 1

原创 利用python和matplotlib对囚犯与盒子问题做可视化分析

几天前在看到一道有趣的谜题: The condemned prisoners and the boxes,作者给出了解法和并使用R来展示分析过程,使用datavisualization来分析理解问题的方法很赞。R我没有用过,作为一个python爱好者,相信类似的统计分析和可视化python一定是有类似的工具的,正好几天前工作中需要分析并可视化数据,就开始寻找,最终在stackoverflow上发现很多人推荐matplotlib这个工具,配合ipython使用,体验很不错,所以遇到这道谜题的时候,用pyt

2010-12-23 01:55:00 1854 1

原创 第一篇

Just a testif __name__ == "__main__": print "Hello Word"

2010-08-30 20:56:00 328

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除