
Hadoop
文章平均质量分 84
Lee的博客
关注大规模数据处理相关开源技术,包括:YARN/MRv2,MRv1,HDFS
展开
-
Hadoop简介
谈到Hadoop就不得不提到Lucene和Nutch。首先,Lucene并不是一个应用程序,而是提供了一个纯Java的高性能全文索引引擎工具包,它可以方便的嵌入到各种实际应用中实现全文搜索/索引功能。Nutch是一个应用程序,是一个以Lucene为基础实现的搜索引擎应用,Lucene为Nutch提供了文本搜索和索引的API,Nutch不光有搜索的功能,还有数据抓取的功能。在nutch0.8.0版本原创 2014-03-28 16:59:33 · 605 阅读 · 0 评论 -
Hadoop学习线路
截止到2013年,根据cloudera的统计,Hadoop家族产品已经达到20个 一句话产品介绍:Apache Hadoop: 是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。Apache Hive: 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语转载 2014-03-28 17:21:28 · 995 阅读 · 0 评论 -
Hadoop是干嘛的
英文原文:Introduction To Apache Hadoop – HDFS & MapReduce参与翻译(2人):Khiyuan, AlfredCheung先快速说明一下: Hadoop并不是什么数据库,也不是程序库,甚至不是一个独立产品。实际上,Hadoop是一些独立模块的组合,包括一个分布式文件系统HDFS、一个分布式数据库HBase、原创 2014-04-02 12:02:31 · 3592 阅读 · 0 评论 -
Hadoop YARN的发展史与详细解析
带有 MapReduce 的 Apache Hadoop 是分布式数据处理的骨干力量。借助其独特的横向扩展物理集群架构和由 Google 最初开发的精细处理框架,Hadoop 在大数据处理的全新领域迎来了爆炸式增长。Hadoop 还开发了一个丰富多样的应用程序生态系统,包括 Apache Pig(一种强大的脚本语言)和 Apache Hive(一个具有类似 SQL 界面的数据仓库解决方案)。原创 2014-04-02 12:16:17 · 1500 阅读 · 0 评论