
Hadoop
yangning5850
这个作者很懒,什么都没留下…
展开
-
Hadoop安装笔记
原来只是装过单节点伪分布模式的hadoop,最近需要在集群上部署,所以又重新学习了一下。在这里首先要感谢实验室的CM师兄,给了我很多指导;另外还参考了来自codestinity的博文ubuntu10.04+hadoop0.20.2平台配置(完全分布式模式)我利用本机和一台VirtualBox虚拟机搭建的小集群(主要是为了学习安装步骤,所以确实很小,☺)。主机开发环境是Ubunt原创 2012-05-12 08:48:43 · 1077 阅读 · 0 评论 -
Hadoop学习——HDFS数据备份与放置策略
对于分布式文件系统来说,为了保证数据的高可用性和系统容错能力,往往会把同一数据块在多个节点上进行备份,那么如何分配这些复制数据的位置,不同的文件系统会有不同的策略。一、业界分析在介绍HDFS之前,先简单了解一些其它文件系统的放置策略:1. Lustre——一致性哈希环对于不同的数据备份,需要放到不同的节点上面,一种直观的想法就是利用Hash函数,这样可以把每个备份id对应到一个哈希原创 2013-07-07 10:27:27 · 20790 阅读 · 0 评论 -
Hadoop学习——HDFS系统架构
Hadoop的分布式文件系统HDFS主要是借鉴了Google发表的论文:The Google File System。该文件系统最大的优点是可以利用很多低配的计算机搭建高扩展和高容错性的分布式文件系统,另外,HDFS放宽了POSIX关于I/O的规定,因为HDFS需要解决的是write-once-read-many问题,所以串行化和流处理技术被应用到HDFS中。HDFS的设计目的主要是下面几原创 2013-07-05 20:30:24 · 5359 阅读 · 1 评论 -
Hadoop学习——HDFS数据存储和删除
HDFS中的数据都是分块存储的,默认块大小为64M,这个值可以从hdfs配置文件中更改dfs.blocksize。这样分快处理的好处是可以增加读取数据的吞吐量,因为可以同时从读取文件的不同分块。一、数据写入在客户端想HDFS写数据的过程中,主要分为下面几个过程:客户端将数据缓存到本地的一个临时文件中;当这个本地的临时文件到达HDFS中的块大小限制时,客户端访问Namenode,原创 2013-07-09 10:39:17 · 12392 阅读 · 0 评论 -
Hadoop学习——HDFS中的Snapshot和Checkpoint
Snapshot(快照):在数据库或者文件系统中,一个快照表示对当前系统状态的一个备份,当系统发生故障时,可以利用这个快照将系统恢复到产生快照时的样子。Checkpoint(检查点):因为数据库系统或者像HDFS这样的分布式文件系统,对文件数据的修改不是直接写回到磁盘的,很多操作是先缓存到内存的Buffer中,当遇到一个检查点Checkpoint时,系统会强制将内存中的数据写回磁盘,当然此时才原创 2013-07-09 22:05:02 · 5225 阅读 · 5 评论 -
Hadoop集群监测工具——ganglia安装实例
Ganglia是一个用于集群性能监测的工具,为了说明其使用方法,本文结合Hadoop集群环境讲解ganglia的安装过程,希望能给感兴趣的朋友提供参考帮助。测试环境Ubuntu 12.04 LTSHadoop 0.20.2ganglia 3.1.7主要概念数据监测节点(gmond):这个部件装在需要监测的节点上,用于收集本节点的运行情况,并将这些统计信息传送到gmetad,原创 2013-03-08 18:56:03 · 4491 阅读 · 1 评论 -
Hadoop监测工具——Splunk安装与使用
Splunk对于各种日志的监测非常好用,个人感觉它与Ganglia的最大不同点在于:Ganglia只是采集实时的数据并显示,不会对这些数据进行存储和备份,但是Splunk会将监测到的数据进行存储,并对这些数据进行有效的索引。另外,Splunk对于日志数据的分析功能也十分强大,它支持对于日志信息的检索,它定义了一种类似SQL语句的查询语法,能够针对日志数据中的不同字段进行查询。当然,你可以根据需要认原创 2013-08-29 22:22:52 · 5659 阅读 · 0 评论