
hadoop
appstore81
这个作者很懒,什么都没留下…
展开
-
Hadoop中的fsimage和edits log编辑日志
转载请注明出处: 【http://datasearch.ruc.edu.cn/~boliangfeng/blog】,谢谢。在hadoopor论坛里看到这样的问题,这里做个回答。我有一个疑问,在namenode的内存中记录了fsimsage信息,但是内存中的fsimage元数据是在namemode启动时去合并本地的editlog和fsimage得到的,这样的话就存在以下问题:转载 2013-09-25 14:39:41 · 960 阅读 · 0 评论 -
大数据时代,给大数据应用还在不惑的人
最近这几年大数据抄的很火很热,出现了很多大数据的处理框架,hadoop作为其中的一个也是开源Paas中优秀的一个,本贴暂不讨论使用什么大数据处理框架,给出一个视频给大家分享一下大数据时代到底是什么回事,无疑《大数据时代》一书是阅读的首选,关注大数据的人在地摊上都能看到这本书,本贴提供一段40多分钟视频给大家,对应那些不想看书,只是简单了解的人,我想这段视频还是可以满足你又好奇又懒于看书阅读的心转载 2013-11-26 11:24:02 · 652 阅读 · 0 评论 -
Hadoop分布式时远程Datanode无法启动的解决
问题的基本现象: 在测试Hadoop的分布式环境搭建时,在namenode启动时信息如下: 引用[www.linuxidc.com@linuxidc hadoop]$ bin/start-all.sh starting namenode, logging to /home/linuxidc/hadoop/bin/../logs/hadoop-linuxidc-namenod转载 2013-11-12 09:25:30 · 781 阅读 · 0 评论 -
hadoop作业引用第三方jar文件
编写mapreduce程序,习惯用eclipse,可以利用hadoop插件,引用第三方jar文件,然后直接run on hadoop即可,很方便。当然插件和eclipse的版本要匹配,不然总是local执行。但如果将自己的程序发布成jar文件,然后用hadoop命令行执行,则会遇到依赖类找不到问题:NoClassDefFoundError。 要解决这个问题,就需要了解hadoop命令式如转载 2013-12-06 14:37:35 · 1016 阅读 · 0 评论 -
社会化海量数据采集爬虫框架搭建
随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢?1、打开浏览器,输入网址url访问页面内容。2、复制页面内容的标题、作者、内容。3、存储到文本转载 2013-12-01 21:30:48 · 1628 阅读 · 0 评论 -
【Hadoop】HDFS的运行原理
HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点:① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。② 运行在廉价的机器上。③ 适合大数据的处理。多大?多小?HDFS转载 2013-12-16 13:10:00 · 705 阅读 · 0 评论 -
Hadoop运行原理详解
目录(?)[-]Map-Reduce的逻辑过程Map-Reduce数据流data flow任务提交任务初始化任务分配任务执行Map的过程Reduce的过程任务结束 我们通过下面这个天气数据处理的例子来说明Hadoop的运行原理.1、Map-Reduce的逻辑过程假设我们需要处理一转载 2013-12-16 13:15:21 · 709 阅读 · 0 评论 -
Hadoop : MapReduce中的Shuffle和Sort分析
MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。 MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map 任转载 2013-12-16 16:10:52 · 650 阅读 · 0 评论 -
MapReduce工作原理
Map-Reduce框架的运作完全基于对,即数据的输入是一批对,生成的结果也是一批对,只是有时候它们的类型不一样而已。Key和value的类由于需要支持被序列化(serialize)操作,所以它们必须要实现Writable接口,而且key的类还必须实现WritableComparable接口,使得可以让框架对数据集的执行排序操作。 一个Map-Reduce任务的执行过程以及数据输入输出的类转载 2013-12-17 17:07:28 · 725 阅读 · 0 评论 -
MapReduce中的二次排序
在MapReduce操作时,我们知道传递的会按照key的大小进行排序,最后输出的结果是按照key排过序的。有的时候我们在key排序的基础上,对value也进行排序。这种需求就是二次排序。我们先看一下Mapper任务的数据处理过程吧,见下图。在图中,数据处理分为四个阶段:(1)Mapper任务会接收输入分片,然后不断的调用map函数,对记录进行处理。处理完毕后,转换为转载 2013-12-19 09:53:48 · 828 阅读 · 0 评论 -
Hadoop二次排序
我想涉及到文件的Join操作应该都要使用到二次排序吧,之前我用字符串拼接的方法显得太不专业了,本来在reduce过程中是不需要保存这些数据的,遍历一次便可以将记录全部collect好。Hadoop 0.20包里面有一个SecondarySort的例子程序,结合公司牛人写的一个ppt,终于搞明白了。呵呵,刚好也用上了,所以总结一下。Hadoop提供了几种默认类型如果Text,LongWrit转载 2013-12-19 12:35:19 · 812 阅读 · 0 评论 -
(转)hadoop配置、运行错误总结
新手搞hadoop最头疼各种各样的问题了,我把自己遇到的问题以及解决办法大致整理一下先,希望对你们有所帮助。一、hadoop集群在namenode格式化(bin/hadoop namenode -format)后重启集群会出现如下Incompatible namespaceIDS in … :namenode namespaceID = … ,datanode namespac转载 2013-12-19 12:58:31 · 861 阅读 · 0 评论 -
Hadoop切分纯文本时对某一行跨两个分片这种情况的处理
当我们提交一个MapReduce程序来处理一个或多个纯文本时,Hadoop会根据设置的分片(split)大小把文件切分成多个(InputSplit),然后分配给MapReduce程序处理。而由于Hadoop对文件做切分的时候,只考虑分片大小,而不管切分的时候会不会把某一行分成两半(事实上,一个分片的结尾正好是一个换行符的概率很低)。那么,在MapReduce程序处理每一行文本的时候,我们会不会得到转载 2013-11-10 13:48:48 · 2403 阅读 · 0 评论 -
hadoop 伪分布式环境配置
http://xuyuanshuaaa.iteye.com/blog/1063303一. 概要 经过几天的调试,终于在Linux Cent OS 5.5下成功搭建Hadoop测试环境。本次测试在一台服务器上进行伪分布式搭建。Hadoop 伪分布式模式是在单机上模拟 Hadoop 分布式,单机上的分布式并不是真正的伪分布式,而是使用线程模拟分布式。Hadoop 本身是无法区转载 2013-11-08 17:24:08 · 773 阅读 · 0 评论 -
hadoop单机部署 伪分布
安装环境 ubuntu server 12.04 hadoop-1.0.21)创建hadoop用户和ssh-key点击(此处)折叠或打开#创建hadoop用户leslie@Notebook:~$ sudo useradd-m -s /bin/bash -G sudo hadoop leslie@Notebook:转载 2013-11-08 17:57:24 · 667 阅读 · 0 评论 -
Hadoop分析之一HDFS元数据解析
1、元数据(Metadata):维护HDFS文件系统中文件和目录的信息,分为内存元数据和元数据文件两种。NameNode维护整个元数据。HDFS实现时,没有采用定期导出元数据的方法,而是采用元数据镜像文件(FSImage)+日子文件(edits)的备份机制。2、Block:文件内容而言。寻路径流程: 路径信息转载 2013-09-25 14:27:03 · 936 阅读 · 0 评论 -
Hadoop的Slots概念
Slots是Hadoop的一个重要概念。然而在Hadoop相关论文,slots的阐述难以理解。网上关于slots的概念介绍也很少,而对于一个有经验的Hadoop开发者来说,他们可能脑子里已经理解了slots的真正含义,但却难以清楚地表达出来,Hadoop初学者听了还是云里雾里。我来尝试讲解一下,以期抛砖引玉。首先,slot不是CPU的Core,也不是memory chip,它是一个逻辑转载 2013-11-17 20:39:29 · 754 阅读 · 0 评论 -
Hadoop Capacity Scheduler配置使用记录
网址: http://www.cnblogs.com/panfeng412/archive/2013/03/22/hadoop-capacity-scheduler-configuration.html这里参考Capacity Scheduler Guide,结合自己的实践经验,对Capacity Scheduler的主要配置参数进行总结。以下标记为红色的部分大都是自己曾踩过坑的地方,希望转载 2013-11-17 20:46:29 · 716 阅读 · 0 评论 -
测试眼里的Hadoop系列 之Terasort
TeraSort是Hadoop的测试中很有用的一个工具,但以前只是粗略的知道它的功能和用法,简单的用它做了几个测试用例。实际上,对于这种比较通用的工具,如果能够了解它更多一些的话,对于理解Hadoop是很有帮助的,同时也可以更好的利用它来帮助测试。最近有点时间,就了解了一些它的背景,代码实现原理等等,就先记录下来吧。1. Hadoop与Sort BenchmarksSortBenchmar转载 2013-11-18 17:46:25 · 1007 阅读 · 0 评论 -
运行hadoop基准测试
由于需要为hadoop集群采购新的服务器,需要对服务器在hadoop环境下的性能进行测试,所以特地整理了一下hadoop集群自带的测试用例:bin/hadoop jar hadoop-*test*.jar运行上述命令,可以得到hadoop-*test*.jar自带的测试程序[html] view plaincopyAn example program转载 2013-11-18 17:52:37 · 1326 阅读 · 0 评论 -
Hadoop状态页面的Browse the filesystem链接无效的问题
NameNode '192.168.1.164:9000'Started:Tue Jul 06 14:37:10 CST 2010Version:0.20.2, r911707Compiled:Fri Feb 19 08:07:34 UTC 2010 by chrisdoUpgrades:There are no upgrad转载 2013-11-07 12:59:12 · 1273 阅读 · 0 评论 -
Namenode做block Recovery过程详细剖析
hdfs为什么会做block recovery说HDFS的block recovery,其实就是Namenode认为该block的状态需要发生一些变化,其原信息和数据都需要做一些相应的调整(或恢复),原信息的调整在namenode上,而由于数据本身是存储在datanode的磁盘上的,所以数据本身的调整其实是由datanode来完成。那么,为什么Namenode会认为某个bl转载 2013-11-07 13:00:40 · 806 阅读 · 0 评论 -
hadoop namenode启动过程详细剖析及瓶颈分析
NameNode启动过程详细剖析目录(?)[-]NameNode启动过程详细剖析NameNode中几个关键的数据结构FSImageBlockMapBlockMap中datanode列表数据结构NameNode启动过程fsimage加载过程blockReport阶段启动过程数据采集和瓶颈分析fsimage加载阶段性能数据采集和瓶颈分析b转载 2013-11-07 11:50:18 · 887 阅读 · 0 评论 -
Hadoop学习——HDFS数据备份与放置策略
[-]一业界分析Lustre一致性哈希环CephCRUSH二HDFS放置策略对于分布式文件系统来说,为了保证数据的高可用性和系统容错能力,往往会把同一数据块在多个节点上进行备份,那么如何分配这些复制数据的位置,不同的文件系统会有不同的策略。一、业界分析在介绍HDFS之前,先简单了解一些其它文件系统的放置策略:1. Lustre——一致性哈希环对于不同的数据备转载 2013-11-07 12:57:13 · 1304 阅读 · 0 评论 -
Hadoop学习笔记(六):Hadoop读写文件时内部工作机制
读文件 读文件时内部工作机制参看下图: 客户端通过调用FileSystem对象(对应于HDFS文件系统,调用DistributedFileSystem对象)的open()方法来打开文件(也即图中的第一步),DistributedFileSystem通过RPC(Remote Procedure Call)调用询问NameNode来得到此文件最开始几个block的文件位置(第二步)。转载 2013-11-08 16:11:50 · 738 阅读 · 0 评论 -
hadoop mapreduce
以hadoop带的wordcount为例子(下面是启动行):hadoop jarhadoop-0.19.0-examples.jar wordcount /usr/input /usr/output用户提交一个任务以后,该任务由JobTracker协调,先执行Map阶段(图中M1,M2和M3),然后执行Reduce阶段(图中R1和R2)。Map阶段和Reduce阶段动作都受TaskTrac转载 2013-11-22 13:09:24 · 835 阅读 · 0 评论 -
Hadoop二次排序
我想涉及到文件的Join操作应该都要使用到二次排序吧,之前我用字符串拼接的方法显得太不专业了,本来在reduce过程中是不需要保存这些数据的,遍历一次便可以将记录全部collect好。Hadoop 0.20包里面有一个SecondarySort的例子程序,结合公司牛人写的一个ppt,终于搞明白了。呵呵,刚好也用上了,所以总结一下。Hadoop提供了几种默认类型如果Text,LongWrit转载 2013-12-19 12:34:46 · 749 阅读 · 0 评论