
Hadoop
ydcun
没有战胜不了的困难,没有完成不了的任务!
展开
-
mapreduce 中文版 中文翻译
MapReduce:超大机群上的简单数据处理 摘要MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间value.下面将列举转载 2016-04-05 01:44:32 · 814 阅读 · 0 评论 -
Google File System(中文翻译)
Google文件系统 GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。 1、设计概览 (1)设计想定 GFS与过去的分布式文件系统有很多相同的目标,但GFS的设计受到了当前及预期的应用方面的工作量及技术环境的驱动,这反映了它与早期的文件系统明显不同的设想。这就转载 2016-04-05 01:46:09 · 569 阅读 · 0 评论 -
Google's BigTable 原理 (翻译)
Google's BigTable 原理 (翻译) 题记:google 的成功除了一个个出色的创意外,还因为有 Jeff Dean 这样的软件架构天才。 欢迎订阅作者微博 ------ 编者官方的 Google Reader blog 中有对BigTable 的解释。这是Google转载 2016-04-05 01:48:13 · 655 阅读 · 0 评论 -
Hadoop伪分布式安装过程
随着互联网的普及,前期的数据积累已经到达了量的积累到质的飞跃的临界时期。Volume:数据量;Velocity:增长迅速;Variety:种类增多;Value:巨大的价值。数据的4v越来越引起我们的关注。数据量从G到T单机都可以挺好的解决但是,现在的数据量已经到达PB EB的数量级,不能简单的通过提高单机硬件来处理数据,消耗的时间代价是我们不能忍受的,于是Hadoop就应用而生:Google的原创 2016-04-05 01:51:06 · 1163 阅读 · 0 评论 -
Hadoop 统计日志文件小案例
随着互联网的发展,移动终端设备的普及,用户数据的达到了一个爆炸式的增长,简单的awk命令对日志等信息的分析已经很难完成我们的需要了,需要用到hadoop等大型分布式处理能力的环境。本文通过show.log文件进行小例子演示:原创 2016-04-16 19:51:11 · 1529 阅读 · 0 评论 -
Hadoop集群搭建,初探
伪分布式参考:http://blog.youkuaiyun.com/manageer/article/details/51061802集群环境:centos6.7 master 192.168.145.129centos6.7 slave1 192.168.145.130centos6.7 slave2 192.168.145.136原创 2016-04-18 12:48:37 · 1209 阅读 · 0 评论