
Hadoop
黑洞之外
欢迎大家关注我的博客,在这里我将与大家一起学习,一起探讨学习中遇到的问题。
展开
-
Hadoop概述
Hadoop的历史: 1.Apache Lucene 》全球第一个开源的全文检索引擎工具包 》完整的查询引擎和索引引擎 》部分文本分析引擎 》开发人员可在此基础建立起完整的全文检索引擎 2.Nutch 》开源的的基于Lucene的网页搜索引擎 》加入网页抓取、解析等功能 》类似于Google等商业搜索引擎 Google的两篇重要论文:原创 2015-11-10 20:14:53 · 558 阅读 · 0 评论 -
HDFS介绍
HDFS介绍: HDFS为了做到可靠性创建了多份数据块的复制,并将它们放置在服务器群的计算节点中,MapReduce就可以在它们所在的节点上处理这些数据了 NameNode DataNode 存储单元数据 存储文件内容 元数据保存在内存中 文件内容保存在磁盘 保存文件,block,datanode之间的映射关系 维护了block id到datanode本地文件的映射关原创 2015-12-16 13:48:48 · 390 阅读 · 0 评论 -
Hadoop简介
Hadoop主要由hdfs(hadoop distributed file system即hadoop分布式文件系统) 、MapReduce和HBase组成。 Hadoop的初衷是为了解决Nutch的海量数据爬取和存储的需要 hadoop的两大核心设计: 1.MapReduce .Map:任务的分解 .Reduce:结果的汇总 2.HDFS .NameNode .DataNode原创 2015-12-16 13:43:11 · 312 阅读 · 0 评论 -
Hadoop必学内容
hadoop: 由大量独立的服务器通过网络互联形成集群,每个服务器带存储 优势:计算与存储融合,支持横向扩展,更好的扩展性 劣势:解决数据冲突时需要节点间协作 适用范围: 1.数据仓库和离线数据分析(MPP,Hadoop/HBase) 2.大规模在线实时应用(单行事务处理能满足的情景)(HBase) Hadoop的必学内容: core:一套分布式文件系统以及支持Map-Reduce原创 2015-12-16 13:46:41 · 364 阅读 · 0 评论