Hadoop
u010335405
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《MapReduce Online》 翻译
[size=medium]UC Berkeley的一位博士生写的,改进了Hadoop,利用了管道、快照等。 其开源项目和代码在 http://code.google.com/p/hop/ 我将其论文翻译了一下,还有很多不懂的地方,再慢慢修改! 附件中是MapReduce Online原文以及翻译。[/size] ...2010-05-18 14:00:37 · 263 阅读 · 0 评论 -
MapReduce及Hadoop国内外研究概况
[size=medium] MapReduce编程模型的思想来源于函数式编程语言Lisp,由Google公司于2004年提出并首先应用于大型集群。同时,Google也发表了GFS、BigTable等底层系统以应用MapReduce模型。在2007年,Google’s MapReduce Programming Model-Revisted论文发表,进一步详细介绍了Google MapRedu...原创 2010-06-17 15:06:27 · 2323 阅读 · 0 评论 -
基于Hadoop配置文件的MapReduce数据流优化
[size=medium] Hadoop配置文件设定了Hadoop平台运行时各方面属性。大量实验证明,合理的配置会大大提高Hadoop的性能。在Hadoop-0.19.2版本中,Hadoop配置文件在conf目录下,包括文件hadoop-default.xml和hadoop-site.xml,前者做了默认配置,不允许修改,用户需要配置时可以在后者中设置。Hadoop平台启动时首先加载hado...原创 2010-06-20 16:25:47 · 257 阅读 · 0 评论 -
基于MapReduce作业的MapReduce数据流优化
[size=medium] 在编写MapReduce应用程序时,除了最基本的Map模块、Reduce模块和驱动方法之外,用户还可以通过一些技巧优化作业以提高其性能。对用户来说,合理地在MapReduce作业中对程序进行优化,可以极大地提高作业的性能,减少作业执行时间。我们从以下几个方法分析MapReduce作业的优化方法。 1 选择Mapper的数量 Hadoop平台在处理...原创 2010-06-22 01:11:43 · 214 阅读 · 0 评论 -
基于Hadoop系统的MapReduce数据流优化
[size=medium]1 Hadoop管道改进思想 在Hadoop系统的实现中,Map端的输出数据首先被溢写入本地磁盘,当本机任务完成后通知JobTracker,然后Reduce端在得到JobTracker的通知后会发出HTTP请求,利用复制的方式从相应的Map端拉回其输出。这样的方式只能等该Map任务完成后才能开始执行Reduce任务,并且Map任务和Reduce任务的执行是分离...原创 2010-07-02 15:57:52 · 202 阅读 · 0 评论
分享