
Hadoop
JJiaoAo
这个作者很懒,什么都没留下…
展开
-
浅析Hadoop两大核心组件的体系结构
[size=medium]HDFS和MapReduce是Hadoop的两大核心。而整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持的,并且它会通过MapReduce来实现对分布式并行任务处理的程序支持。[b]HDFS的体系结构[/b]我们首先介绍HDFS的体系结构,HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameN...原创 2012-11-13 09:48:44 · 1310 阅读 · 0 评论 -
大数据不是只有Hadoop
[size=medium]这段时间接触大数据相关项目比较多,自然有些体会和感触。感觉到自己之前对于这个领域的认识并不全面,甚至有点盲目,然后在具体项目或者概念认证阶段走了不少弯路。但好在在这些项目过程中认识接触了不少合作伙伴的兄弟姐妹们,从他们那里学到了不少东西。现在试着把这些心得整理下分享给大家,希望对于各位对大数据感兴趣的童鞋们有点帮助吧。这篇PPT主要有两个部分:一个部分是讲大数据应用场...原创 2012-11-13 10:01:17 · 186 阅读 · 0 评论 -
Hadoop白皮书(1):分布式文件系统HDFS简介
[size=medium]Hadoop 分布式文件系统 (HDFS) 是运行在通用硬件上的分布式文件系统。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS 已经在各种大型在线服务和大型存储系统中得到广泛应用,已经成为各大网站等在线服务公司的海量存储事实标准,多年来为网站客户提供了可靠高效的服务。随着信息系统的快速发展,海量的信息需要可靠存储的同时,还能被大量的使...原创 2012-11-13 11:00:06 · 356 阅读 · 0 评论 -
Hadoop白皮书(2):分布式数据库HBase简介
[size=medium]HBase 是一个面向列的分布式数据库。HBase 不是一个关系型数据库,其设计目标是用来解决关系型数据库在处理海量数据时的理论和实现上的局限性。传统关系型数据库在上世纪七十年代为交易系统设计,以满足数据一致性(ACID)为目标,并没有考虑数据规模扩大时的扩展性,以及单点系统失效时的可靠性。虽然经过多年的技术发展,产生了一些对关系性数据库的修补(并行数据库),然而受限...原创 2012-11-13 11:07:13 · 193 阅读 · 0 评论 -
Hadoop白皮书(3):分布式计算框架MapReduce简介
[size=medium]MapReduce 是一个高性能的批处理分布式计算框架,用于对海量数据进行并行分析和处理。与传统数据仓库和分析技术相比,MapReduce 适合处理各种类型的数据,包括结构化、半结构化和非结构化数据。数据量在 TB 和 PB 级别,在这个量级上,传统方法通常已经无法处理数据。MapReduce 将分析任务分为大量的并行 Map 任务和 Reduce 汇总任务两类。Ma...原创 2012-11-13 11:13:01 · 267 阅读 · 0 评论 -
Hadoop白皮书(4):数据仓库Hive简介
[size=medium]Hive 是一种建立在 Hadoop 之上的数据仓库架构。它提供了:• 一套方便的实施数据抽取(ETL)的工具。• 一种让用户对数据描述其结构的机制。• 支持用户对存储在Hadoop中的海量数据进行查询和分析的能力。Hive 的基本特点是它采用 HDFS 进行数据存储并利用 Map/Reduce 框架进行数据操作。所以从本质上来说,Hi...原创 2012-11-16 10:59:47 · 262 阅读 · 0 评论 -
Hadoop白皮书(5):机器学习Mahout简介
[size=medium]Mahout 是一套具有可扩充能力的机器学习类库。它提供机器学习框架的同时,还实现了一些可扩展的机器学习领域经典算法的实现,可以帮助开发人员更加方便快捷地创建智能应用程序。通过和 Apache Hadoop 分布式框架相结合,Mahout 可以有效地使用分布式系统来实现高性能计算。Mahout 现在提供 4 种使用场景的算法。[b]• 推荐引擎算法:[...原创 2012-11-16 10:59:55 · 270 阅读 · 0 评论 -
Hadoop学习笔记:在Windows下搭建运行环境
hadoop 见附件原创 2012-11-26 16:04:27 · 145 阅读 · 0 评论