
hadoop
文章平均质量分 88
kntao
互联网行业广告含义,分布式数据存储,大数据计算。
展开
-
怎样去找出线上hive或mapreduce运行慢的原因
hive mapreduce 都会转成java。所以要用的java分析工具。当看到map或reduce 阶段运行缓慢,我们去线上找到mapreduce的进程:1. top 发现进程:2. top -Hp 32486 找到进程中cpu或mem磁盘消耗最高的线程:3. 用jstack主要用来查看某个Java进程内的线程堆栈信息:bin/jstack -F 26510原创 2014-08-19 16:30:42 · 9746 阅读 · 0 评论 -
hadoop分析之一HDFS元数据解析
1、元数据(Metadata):维护HDFS文件系统中文件和目录的信息,分为内存元数据和元数据文件两种。NameNode维护整个元数据。HDFS实现时,没有采用定期导出元数据的方法,而是采用元数据镜像文件(FSImage)+日子文件(edits)的备份机制。2、Block:文件内容而言。寻路径流程: 路径信息 b原创 2012-07-20 23:33:44 · 23244 阅读 · 3 评论 -
mapr- hadoop 更换坏掉的磁盘
列出服务器所在的磁盘:maprcli disk list -host 127.0.0.1移除坏掉的磁盘:maprcli disk remove -host 127.0.0.1 -disks /dev/sdk添加新的磁盘:maprcli disk add -host 127.0.0.1 -disks /dev/sdk原创 2014-01-20 18:27:44 · 5772 阅读 · 1 评论 -
hive 实现 udf row_number 以及遇到的问题
为hive的每条数据添加row_number, 首先添加行号,必须考虑到数据必须放在一个reduce中去执行。先上代码package xx.xxxxx.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.hive.ql.udf.UDFType;@UDFType(determinis原创 2013-11-08 18:24:54 · 6044 阅读 · 0 评论 -
Reduce 优化(mapr)
1、合理设计桶的大小,插入桶的时候,桶的数目和reduce的数目一致,结合map的输出大小合理设置桶的大小,否则在reduce阶段就会非常慢。2、查看reduce的copy的速率,如果map output的文件过多,mapred.reduce.parallel.copies默认是12(mapr),表示一个reduce会开启12个线程向map阶段copy数据。可以加大次参数。3、reduce原创 2013-10-30 10:48:55 · 3451 阅读 · 0 评论 -
hive 优化 tips
一、 Hive join优化1. 尽量将小表放在join的左边,我们使用的Hive-0.90,所以是自动转化的,既把小表自动装入内存,执行map side join(性能好), 这是由参数hive.auto.convert.join=true 和hive.smalltable.filesize=25000000L)参数控制(默认是25M),如果表文件大小在25M左右,可以适当调原创 2013-10-17 15:40:21 · 5155 阅读 · 0 评论 -
利用Map Reduce 过滤大数据的解决方案
问题引入:假设从200亿条记录中(大约200G)查找100多条其中的记录,不考虑集群的计算能力,我们可以这样写mapreduce: 直接不考虑数据量大小,reduce阶段一次行过滤。public static class UserChainSixMapper extends Mapper { private static String prefix1 = "tm"原创 2013-03-21 16:41:08 · 6421 阅读 · 0 评论 -
hadoop分析之四:关于hadoop namenode的双机热备份方案
参考Hadoop_HDFS系统双机热备方案.pdf,试验后有所增减关于hadoopnamenode的双机热备份方案1、 前言目前hadoop-0.20.2没有提供name node的备份,只是提供了一个secondary node,尽管它在一定程度上能够保证对name node的备份,但当name node所在的机器出现故障时,secondary node不能提供实时原创 2012-07-26 17:40:55 · 15718 阅读 · 4 评论 -
hadoop分析之二元数据备份方案的机制
1、NameNode启动加载元数据情景分析NameNode函数里调用FSNamesystemm读取dfs.namenode.name.dir和dfs.namenode.edits.dir构建FSDirectory。FSImage类recoverTransitionRead和saveNameSpace分别实现了元数据的检查、加载、内存合并和元数据的持久化存储。saveNameSpace将原创 2012-07-21 16:12:32 · 4782 阅读 · 2 评论 -
hadoop分析之三org.apache.hadoop.hdfs.server.namenode各个类的功能与角色
以hadoop0.21为例。NameNode.java: 主要维护文件系统的名字空间和文件的元数据,以下是代码中的说明。/********************************************************** * NameNode serves as both directory namespace manager and * "inode table"原创 2012-07-21 22:52:28 · 7568 阅读 · 1 评论 -
hadoop的安全模式
the ratio of reported blocks 1.0001 has reached the threshold 0.9990. Safe mode will be turned off automatically in 7 seconds.平常不知道安全模式是啥的情况下,hadoop提供了一些命令:hadoop dfsadmin -safemodeNameNode在原创 2012-06-07 17:01:20 · 2340 阅读 · 0 评论 -
hbase的参数说明
hbase.balancer.periodPeriod at which the region balancer runs in the master.Type: intDefault: 300000 (5 mins)Unit: millisecondshbase.client.keyvalue.maxsizeSpecifies the combined maximum a原创 2012-06-07 16:58:43 · 4282 阅读 · 0 评论 -
hadoop三个配置文件的参数含义说明
2 常用的端口配置2.1 HDFS端口 参数描述默认配置文件例子值fs.default.name namenodenamenode RPC交互端口8020core-site.xmlhdfs://转载 2012-06-07 16:57:37 · 4343 阅读 · 0 评论 -
hadoop的I/O
1. 数据完整性:任何语言对IO的操作都要保持其数据的完整性。hadoop当然希望数据在存储和处理中不会丢失或损坏。检查数据完整性的常用方法是校验和。HDFS的数据完整性:客户端在写或者读取HDFS的文件时,都会对其进行校验和验证,当然我们可以通过在Open()方法读取之前,将false传给FileSystem中的setVerifyCheckSum()来禁用校验和。本地文件系统,hadoo原创 2012-04-05 18:12:56 · 3717 阅读 · 0 评论 -
CDH 5.3.0 一个小任务运行了12个小时的原因。
本来一个小任务,周末定时任务却跑了12个小时,查看日志,满屏都是:2015-09-13 00:02:51,433 INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Ramping down all scheduled reduces:02015-09-13原创 2015-09-14 11:33:39 · 7370 阅读 · 1 评论