
hadoop
代老师的编程课
去哪儿网资深架构师,前美团技术专家,16年Java开发经验,MiniTomcat实战课程作者。
展开
-
谷歌三大核心技术(一)Google File System中文版
谷歌三大核心技术(一)Google File System中文版The Google File System中文版译者:alex摘要我们设计并实现了Google GFS文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。GFS虽然运行在廉价的普遍硬件设备上,但是它依然了提供灾难冗余的能力,为大量客户机提供了高性能的服务。虽然GFS的设计目标与许多传统的分布式文件系转载 2013-03-17 16:30:45 · 977 阅读 · 0 评论 -
mapreduce-从wordcount开始
1.wordcount的代码如下public class WordCount{ public static class TokenizerMapper extends Mapper { private final static IntWritable one = new IntWritable(1); private Text wor转载 2013-05-14 22:04:22 · 668 阅读 · 0 评论 -
MapReduce算法模式
读者是没有耐心的,我也没有,所以先说结论:你可以不用编程序,只要鼠标点几下拖动些图标,改改参数,就能完成过亿数据的分布处理程序。当然,这么理想的目标现在还没有达到,但路已经明明白白的展现在面前了,至少我们已经走了接近一半了。首先说明, MapReduce算法本身就来自于函数式编程,因此用FP的思路来进行算法构建是再合理不过的事情。之前的程序是用Haskell开发的,现在用Pytho转载 2013-05-14 22:00:08 · 555 阅读 · 0 评论 -
MapReduce 模式、算法和用例
本文译自 Mapreduce Patterns, Algorithms, and Use Cases在这篇文章里总结了几种网上或者论文中常见的MapReduce模式和算法,并系统化的解释了这些技术的不同之处。所有描述性的文字和代码都使用了标准hadoop的MapReduce模型,包括Mappers, Reduces, Combiners, Partitioners,和 sort转载 2013-05-14 21:58:39 · 599 阅读 · 0 评论 -
Java 开发 2.0: 用 Hadoop MapReduce 进行大数据分析
成堆的数据如何变成信息金矿Andrew Glover, 作家和开发人员, Beacon50简介: Apache Hadoop 是目前分析分布式数据的首选工具,和大多数 Java™ 2.0 技术一样,是可扩展的。从 Hadoop 的 MapReduce 编程建模开始,学习如何用它来分析数据,满足大大小小的商业信息需求。查看本系列更多内容发布日期转载 2013-05-14 22:52:23 · 878 阅读 · 1 评论 -
急性子的开源大数据,第 1 部分: Hadoop 教程:Hello World 与 Java、Pig、Hive、Flume、Fuse、Oozie,以及 Sqoop 与 Informix、DB2 和
如何开始使用 Hadoop 和自己喜欢的数据库Marty Lurie, 系统工程师, IBM简介: 本文的重点是解释大数据,然后在 Hadoop 中提供简单的工作示例,Hadoop 是在大数据领域的主要开源选手。您会很高兴地听到,Hadoop 并不是 Informix® 或 DB2® 的替代品,但事实上与现有的基础架构配合得很好。Hadoop 家族有多个组件,本转载 2013-05-14 22:45:51 · 2911 阅读 · 0 评论 -
实践:使用 Apache Hadoop 处理日志
使用典型 Linux 系统上的 Hadoop 从日志中提取有用数据M. Tim Jones, 独立作家, 顾问简介: 日志是任何计算系统中一个必不可少的部分,支持从审计到错误管理等功能。随着日志的发展和日志来源数量的不断增加(比如在云环境中),有必要提供一个可扩展的系统来高效处理日志。这篇实践将探讨如何在典型 Linux 系统上使用 Apache Hadoop转载 2013-05-14 22:31:58 · 913 阅读 · 0 评论 -
MapReduce算法设计--Think in Hadoop
本文介绍几种MapReduce算法设计的技巧,全部内容翻译自《Data-Intensive Text Processing with MapReduce》。Local Aggregation说到Local Aggregation,你可能会想不就是Combiner吗。实际上在mapper中进行combining比使用真正的combiner高效得多。首先combiner只是作为MapReduc转载 2013-05-14 21:59:23 · 947 阅读 · 0 评论 -
谷歌三大核心技术(三)Google_BigTable中文版
译者:alex摘要Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的PB级的数据。Google的很多项目使用Bigtable存储数据,包括Web索引、Google Earth、Google Finance。这些应用对Bigtable提出的要求差异非常大,无论是在数据量上(从URL到网页到卫星图像)还是在响应速度上(从后端的批转载 2013-03-17 16:37:04 · 1159 阅读 · 0 评论 -
谷歌三大核心技术(二)Google MapReduce中文版
谷歌三大核心技术(二)Google MapReduce中文版Google MapReduce中文版译者: alex摘要MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于 key/value pair的数据集合,输出中间的基于key/value pair的数据集合;然后再创建一个Reduce函数用来合并所有的转载 2013-03-17 16:32:08 · 801 阅读 · 0 评论 -
Google后Hadoop时代的新“三驾马车”——Caffeine、Pregel、Dremel
http://www.youkuaiyun.com/article/2012-08-21/2808870摘要:Google在2003年到2004年公布了关于GFS、MapReduce和BigTable三篇技术论文,这也成为后来云计算发展的重要基石,如今Google在后Hadoop时代的新“三驾马车”——Caffeine、Pregel、Dremel再一次影响着全球大数据技术的发展潮流。转载 2013-03-17 16:44:20 · 850 阅读 · 0 评论