
Hadoop
凉秋cds
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce: WordCount的Eclipse实现
WordCountMapper.javapackage cds.hadoop.wordcount;import java.io.IOException;import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import原创 2016-04-04 20:31:42 · 1067 阅读 · 0 评论 -
如何用Eclipse查看Hadoop源码
首先,安装好Eclipse 和 JDK 这些我就不赘述了。我只强调几点,为跟我一样的初学者提供方便。Apache Hadoop Releases的Download界面是这样的:我们布置Hadoop和开发需要的Library都是这个“binary”文件:大小一般在200多M。而我们想查看的源码在“source”里面:这个压缩包小很多,一般在20M左右。下载好这个source包之后,解压,然后在编写的H原创 2016-04-04 21:24:00 · 1484 阅读 · 0 评论 -
Hive2.x 版本的安装及配置
博主学习Hadoop学习到Hive,一开始跟着资料去安装Hive 1.x一点问题也没有,方便快捷啊,但是看了一下官方文档,上面好像说Hive 2.0修复了很多bug,那么我想,我还是用Hive2.0好了。于是我开始按照原来的流程配置Hive2.0,遇到了各种问题,而且由于版本太新,国内网站上的解决方案基本上没有用。查阅各种资料,现在终于配置好了。所以写这篇博文分享,希望减少跟我一样的新手在使用Hiv原创 2016-04-12 18:23:31 · 7824 阅读 · 0 评论 -
MapReduce实现手机上网流量统计
FlowCount.javapackage cn.itheima.bigdata.hadoop.mr.flowcount;import java.io.IOException;import org.apache.commons.lang.StringUtils; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop转载 2016-04-11 01:22:35 · 1918 阅读 · 0 评论 -
Spark的三种分布式部署模式:Standalone, Mesos,Yarn
(转载地址:http://dongxicheng.org/framework-on-yarn/apache-spark-comparing-three-deploying-ways/)目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资转载 2016-04-22 01:50:55 · 7504 阅读 · 1 评论 -
Tachyon:Spark生态系统中的分布式内存文件系统
(转自:http://www.youkuaiyun.com/article/2015-06-25/2825056)Tachyon是Spark生态系统内快速崛起的一个新项目。 本质上, Tachyon是个分布式的内存文件系统, 它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力。Tachyon把内存存储的功能从Spark中分离出来, 使Spark可以更专注计算的本身, 以求通过更细的分转载 2016-04-22 20:29:32 · 729 阅读 · 0 评论