
hadoop
小小八卦姐
程序媛一枚爱读书爱生活
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce的模式、算法和用例
本文英文原文发表于知名技术博客《Highly Scalable Blog》,由@juliashine 进行翻译投稿。感谢译者的共享精神!译者介绍:Juliashine是多年抓娃工程师,现工作方向是海量数据处理与分析,关注Hadoop与NoSQL生态体系。英文原文:《MapReduce Patterns, Algorithms, and Use Cases》译文地址:《MapReduce转载 2013-07-17 10:47:08 · 1133 阅读 · 0 评论 -
MapReduce 算法 —— 二级排序
英文原文:MapReduce Algorithms – Secondary Sorting转载 2014-10-05 12:09:44 · 1134 阅读 · 0 评论 -
MapReduce算法 – 反转排序(Order Inversion)
本文译自 MapReduce Algorithms – Order Inversion译者注:在刚开始翻译的时候,我将Order Inversion按照字面意思翻译成“反序”或者“倒序”,但是翻译完整篇文章之后,我感觉到,将Order Inversion翻译成反序模式是不恰当的,根据本文的内容,很显然,Inversion并非是将顺序倒排的意思,而是如同Spring的IOC一样,表明的是一种转载 2014-10-05 12:05:30 · 2016 阅读 · 0 评论 -
用MapReduce进行数据密集型文本处理 – 本地聚合(上)
本文译自Working Through Data-Intensive Text Processing with MapReduce因为最近忙于Coursera提供 的一些课程,我已经有一段时间没有写博客了。这些课程非常有意思,值得一看。我买了一本书《Data-Intensive Processing with MapReduce》,作者是Jimmy和Chris Dyer。书里以伪码形式转载 2014-10-05 11:58:45 · 1502 阅读 · 0 评论 -
MapReduce的常用算法
本系列文章翻译自博客codingjunkie.net , 作者总结了在《Data-Intensive Processing with MapReduce》这本书中涉及到的处理数据的方法,并写了真实可用的hadoop样例代码来代替书中的伪码。遗憾的是这本书目前在国内还买不到,只能从Amazon.com上购买。本系列文章包括用MapReduce进行数据密集型文本处理 – 本地聚合(转载 2014-10-05 11:57:36 · 1508 阅读 · 0 评论 -
用 Hadoop 计算共生矩阵
本文译自Calculating A Co-Occurrence Matrix with Hadoop本文是《Data-Intensive Text Processing with MapReduce》提到的MapReduce算法的系列文章的延续。这次我们会使用语料库建立一个单词共生矩阵。所谓共生矩阵可以描述为对于某种事件,给予一个特定的时间或者空间限制,然后记录在这种情况下会发生的转载 2014-10-05 12:04:34 · 1081 阅读 · 0 评论 -
用MapReduce进行数据密集型文本处理 – 本地聚合(下)
本文译自 Working Through Data-Intensive Text Processing with MapReduce – Local Aggregation Part II本文是《Data Intensive Processing with MapReduce》中的算法实现系列文章的最新一篇。在第一篇里,我们讨论了使用本地聚合技术来减少shuffle阶段的网络传输数据量转载 2014-10-05 12:03:10 · 1019 阅读 · 0 评论 -
深入理解Hadoop集群和网络
导读:云计算和Hadoop中网络是讨论得相对比较少的领域。本文原文由Dell企业技术专家Brad Hedlund撰写,他曾在思科工作多年,专长是数据中心、云网络等。文章素材基于作者自己的研究、实验和Cloudera的培训资料。本文将着重于讨论Hadoop集群的体系结构和方法,及它如何与网络和服务器基础设施的关系。最开始我们先学习一下Hadoop集群运作的基础原理。Had转载 2013-11-10 15:12:51 · 916 阅读 · 0 评论 -
MapReduce编程(入门篇)
一. MapReduce 编程模型还是以一个经典的图片来说明问题.1. 首先, 我们能确定我们有一份输入, 而且他的数据量会很大2. 通过split之后, 他变成了若干的分片, 每个分片交给一个Map处理3. map处理完后, tasktracker会把数据进行复制和排序, 然后通过输出的key 和value进行 partition的划分, 并把partition相同的map输出,转载 2013-11-23 22:22:01 · 1965 阅读 · 1 评论 -
MapReduce 编程模型在日志分析方面的应用
简介日志分析往往是商业智能的基础,而日益增长的日志信息条目使得大规模数据处理平台的出现成为必然。MapReduce 处理数据的有效性为日志分析提供了可靠的后盾。本文将以对访问网页用户的日志进行分析,进而挖掘出用户兴趣点这一完整流程为例,详细解释 MapReduce 模型的对应实现,涵盖在 MapReduce 编程中对于特殊问题的处理技巧,比如机器学习算法、排序算法、索引机制、连接机转载 2013-11-23 20:17:25 · 1165 阅读 · 0 评论 -
将 Hadoop YARN 发扬广大
带有 MapReduce 的 Apache Hadoop 是分布式数据处理的骨干力量。借助其独特的横向扩展物理集群架构和由 Google 最初开发的精细处理框架,Hadoop 在大数据处理的全新领域迎来了爆炸式增长。Hadoop 还开发了一个丰富多样的应用程序生态系统,包括 Apache Pig(一种强大的脚本语言)和 Apache Hive(一个具有类似 SQL 界面的数据仓库解决方案)。转载 2013-11-19 09:52:23 · 1016 阅读 · 0 评论 -
Spring hadoop之一 mongodb与hadoop的整合使用
在上一章节 我们讲到了hbase的使用回顾, 这一章我们将一下同样是nosql的另一分支 mongodb 基于文档型数据库mongodb的基本使用 下面是一张与oracle mysql这种关系型数据库的对比基本操作 cruddb.users.insert( { user_id: "abc123", age: 55, status: "A" } )d转载 2013-11-19 09:58:14 · 4279 阅读 · 0 评论 -
编译cdh4-hadoop的eclipse插件
电脑为纯净版本,即什么编译工具之类的都没有安装。原创 2013-11-22 15:04:14 · 2195 阅读 · 0 评论