Hadoop生态系统
文章平均质量分 79
recommender_system
上海理工大学,光电信息与计算机工程学院,网络计算实验室。研究方向:推荐系统,信息检索,数据挖掘,机器学习,自然语言处理。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
4台Hadoop集群完全分布式搭建
一、集群拓扑结构集群软件,如下所示:jdk-1.7.0hadoop-0.20.2mahout-0.5.0ubuntu-12.04说明:(1)四台计算机的用户名均为computer。(2)所有软件均放在/home/computer/目录下面。(3)master的作用是NameNode,Secondary,JobTracker。(4)slaver1,sl原创 2014-12-16 20:49:30 · 2249 阅读 · 0 评论 -
WordCount源码剖析
为了把抽象问题转化成为具体问题,深入理解MapReduce的工作原理,因此,以WordCount为例,详细分析MapReduce是怎么来执行的,中间的执行经过了哪些步骤,每个步骤产生的结果是什么。简单来说,大体上工作流程是Input从HDFS里面并行读取文本中的内容,经过MapReduce模型,最终把分析出来的结果用Output封装,持久化到HDFS中。一、WordCount的Map过程1原创 2014-12-19 16:28:32 · 5552 阅读 · 2 评论 -
MapReduce工作原理
一、MapReduce模型框架 MapReduce是一个用于大规模数据处理的分布式计算模型,最初由Google工程师设计并实现的,Google已经将完整的MapReduce论文公开发布了。其中的定义是,MapReduce是一个编程模型,是一个用于处理和生成大规模数据集的相关的实现。用户定义一个map函数来处理一个Key-Value对以生成一批中间的Key-Value对,再定义一个r原创 2014-12-19 09:56:05 · 5457 阅读 · 0 评论 -
分布式存储与分布式计算
一、高性能计算目前自己知道的高性能计算工具,如下所示:Hadoop:Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Spark:Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行,Spark,拥有Hadoop MapReduce所具原创 2014-12-19 21:13:46 · 12389 阅读 · 1 评论 -
Hadoop分布式文件系统和I/O
一、Hadoop数据类型Hadoop提供的数据类型,如下所示:BooleanWritable:标准布尔型数值ByteWritable:单字节数值DoubleWritable:双字节数FloatWritable:浮点数IntWritable:整型数LongWritable:长整型数Text:使用UTF8格式存储的文本NullWritable:当中的key或value为空时使用说明原创 2014-12-17 16:13:39 · 1136 阅读 · 0 评论
分享