
hadoop
文章平均质量分 80
andyxm
看到80后的韩寒等都有所成就、90后的人才辈出了,做为80后的我感到惭愧了,决定不再虚度年华。
展开
-
用hadoop估算圆周率PI(3.1415926)的值
转自:http://thinkinginhadoop.iteye.com/blog/710847晕,我算了一、hadoop不适合计算密集型的工作 以前看过一个PPT: Hadoop In 45 Minutes or Less ,记得上面说hadoop不适合计算密集型的工作,比如计算PI后100000位小数。 但是,前几天,我却发现了在hadoop自带的examp原创 2011-09-07 16:33:46 · 2775 阅读 · 1 评论 -
RCFile高效存储结构
Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据库的数据存储和处理机制。它采用类SQL语言对数据进行自动化管理和处理,经过语句解析和转换,最终生成基于Hadoop的MapReduce任务,通过执行这些任务完成数据处理。图转载 2012-01-04 11:26:05 · 817 阅读 · 0 评论 -
注意你的hosts文件--记一次HBase问题定位
最近在部署HBase时遇到一个非常奇怪的问题:集群有7台机器,其中1台Master,6台RegionServer。但是Master只能控制其中1台RegionServer,而无法控制其他5台RegionServer。打开master的日志文件,发现以下错误信息:2011-04-22 16:37:21,242 WARN org.apache.hadoop.hbase.master.Assig原创 2012-01-04 10:35:36 · 808 阅读 · 0 评论 -
HBase性能调优
转自:http://rdc.taobao.com/team/jm/archives/975另可参考:http://hbase.apache.org/book.html#performance配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间转载 2012-01-03 16:34:58 · 525 阅读 · 0 评论 -
hadoop作业调优参数整理及原理
1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都会对应存在一个内存buffer(MapOutputBuffe转载 2012-02-02 18:13:36 · 517 阅读 · 0 评论 -
Hadoop平台优化综述
1. 概述随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台,虽然其应用价值已得到大家认可,但仍存在很多问题,以下是主要几个:(1) Namenode/jobtracker单点故障。 Hadoop采用的是master/s转载 2012-02-02 16:22:22 · 691 阅读 · 0 评论 -
Hadoop-0.20.2 作业内存控制策略分析
转自:http://dongxicheng.org/mapreduce/hadoop-job-memory-control/对于Hadoop而言,对作业使用资源量进行限制是非常重要的,这可以防止一些有问题的作业因耗掉集群中大量资源而干扰其他正常作业。本文主要分析了Hadoop-0.20.2中作业内存控制相关策略,包括怎样启用Hadoop作业内存使用量控制功能,Hadoop怎样实转载 2012-02-02 16:40:54 · 1730 阅读 · 0 评论 -
用hive+hdfs+sqoop分析日志的步骤
现在的部分工作是进行日志分析,由于每天的日志压缩前80多G左右,用lzop压缩后10G左右,如果用shell直接进行统计,需要花费很长时间才能完成,而且还需要用java函数对request url进行转换,于是采用hive+hdfs+sqoop方案进行日志统计分析hadoop+hive+hdfs+sqoop的架构就不详细说了,可以直接用cloudera的repo直接安装 日志分析步骤转载 2011-12-28 13:51:58 · 917 阅读 · 0 评论 -
secondnamenode详解
光从字面上来理解,很容易让一些初学者先入为主的认为:SecondaryNameNode(snn)就是NameNode(nn)的热备进程。其实不是。snn是HDFS架构中的一个组成部分,但是经常由于名字而被人误解它真正的用途,其实它真正的用途,是用来保存namenode中对HDFS metadata的信息的备份,并减少namenode重启的时间。对于hadoop进程中 ,要配置好并正确的使用 snn转载 2011-12-28 11:14:18 · 3304 阅读 · 0 评论 -
Hadoop权限管理
摘自:http://dongxicheng.org/mapreduce/hadoop-permission-management/1. 介绍本文介绍的Hadoop权限管理包括以下几个模块:(1) 用户分组管理。用于按组为单位组织管理,某个用户只能向固定分组中提交作业,只能使用固定分组中配置的资源;同时可以限制每个用户提交的作业数,使用的资源量等(2) 作业管理。包括作业提交转载 2011-12-26 16:22:33 · 2021 阅读 · 0 评论 -
HBase技术介绍
转自:一淘网博客http://www.searchtb.com/2011/01/understanding-hbase.html,hbase应用确实很广泛。HBase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google B转载 2011-09-02 14:32:56 · 559 阅读 · 0 评论 -
hbase介绍
转自:淘宝共享数据平台博客,与前一篇有细微差别。http://www.tbdata.org/archives/1509hbase是bigtable的开源山寨版本。是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hi转载 2011-09-02 14:38:16 · 1226 阅读 · 0 评论 -
Zookeeper在hbase集群的作用
1,hbase regionserver 向zookeeper注册,提供hbase regionserver状态信息(是否在线)2,hmaster启动时候会将hbase 系统表-ROOT- 加载到 zookeeper cluster,通过zookeeper cluster可以获取当前系统表.META.的存储所对应的regionserver信息。HMaster主要作用在于,通过H转载 2013-06-14 18:20:53 · 9700 阅读 · 0 评论