
hadoop
文章平均质量分 69
龙明倩
架构设计、BI管理开发、大数据研究杂项
展开
-
kettle实现hadoop文件操作
Kettle默认版本只支持0.20.0的版本如果要支持,2.2版本,要进行插件升级1.1复制文件到hadoop系统场景描述:从本地环境(window)复制txt文件到10.204.104.193的hadoop环境,放到/user/hadoop/input目录下1.1.1 环境及元数据描述2013-11-14Kettel版本信息:pdi-ce-4.4.0-stableC:转载 2014-03-05 10:21:59 · 8487 阅读 · 0 评论 -
Spark传说是神技
Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,非常短小精悍。Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它转载 2014-10-30 17:52:37 · 781 阅读 · 0 评论 -
hadoop-Shuffle$ShuffleError: error in shuffle in fetcher#4错误(InMemoryMapOutput)
任务到reduce时,90%多时,有时会出错:Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#4 at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:121) at转载 2015-12-30 12:04:57 · 3124 阅读 · 1 评论 -
hadoop错误-YarnException: Unauthorized request to start container
集群没做调整,昨天突然出现大量的执行失败,是启动就失败的hive任务:,如下图点开History是由于一台服务器导致,错误代码:Application application_1456816082333_0023 failed 2 times due to Error launching appattempt_1456816082333_0023_000002. Got excep原创 2016-03-01 16:32:50 · 3070 阅读 · 0 评论 -
hive-错误-处理解压文件gz出错
gz压缩文件上传到hdfs,hive读取处理Task with the most failures(4): -----Task ID: task_1456816082333_1354_m_000339URL: http://xxxx:8088/taskdetails.jsp?jobid=job_1456816082333_1354&tipid=task_14原创 2016-03-02 00:00:10 · 2725 阅读 · 1 评论 -
hadoop学习点滴,积累
1、磁盘篇: 1)hadoop可以并行使用磁盘,通过配置dfs.data.dir和mapred.data.dir参数 2)slave节点的服务器磁盘不需要配备RAID,来自Yahoo测试的使用经验,配备RAID磁盘的hadoop集群在I/O整体性能上反而不如不做磁盘RAID的集群。 3)单块磁盘损坏会造成RAID 0 节点所有磁盘失效,从而造成整个节点不可用转载 2016-02-16 15:33:58 · 324 阅读 · 0 评论 -
yarn is running beyond physical memory limits 问题解决
yarn is running beyond physical memory limits 问题解决Diagnostic Messages for this Task:Container [pid=7830,containerID=container_1397098636321_27548_01_000297] is running beyond physical转载 2016-03-22 11:47:58 · 1274 阅读 · 0 评论 -
hadoop启动报错-namenode无法启动-GC overhead limit exceeded
报错场景:凌晨4:30分钟报错日志:2016-03-22 04:30:29,075 WARN org.apache.hadoop.ipc.Server: IPC Server handler 2 on 9000, call org.apache.hadoop.hdfs.protocol.ClientProtocol.getFileInfo from 10.10.10.43:54994 Ca原创 2016-03-22 14:51:43 · 4385 阅读 · 0 评论 -
MapReduce任务Shuffle Error错误
调整hive去重的SQL,采用collect_set去重,根据唯一值MD5去重,效果貌似可以提升,但是遇到错误:Task with the most failures(4): -----Task ID: task_1458621585996_246153_r_000000URL: http://bis-newnamenode-s-01:8088/taskdeta转载 2016-06-30 09:06:54 · 1477 阅读 · 1 评论 -
kettle操作HIVE,可以链接,但不能取数的问题
进行hadoop copy file后,hive也可以在kettle进行脚本操作!今天遇到一个问题,kettle采用“表输入”的方式获取数据,输出到文件或者库,问题:2014/03/25 11:36:55 - hadoop_hive_test - ERROR (version 4.4.0-stable, build 17588 from 2012-11-21 16.02.21 by原创 2014-03-25 12:41:15 · 8647 阅读 · 5 评论 -
kettle采用Hadoop Copy Files出现权限不足的问题
kettle设计如下:测试例子说明:SQL控件,是直接连接HIVE环境,truncate table table;Hadoop Copy Files 是拷贝ETL服务器一个文件到对应的hadoop目录下,也就是HIVE表所在的表目录Hadoop Copy Files 设置如下:执行job,提示权限不足:原创 2014-03-20 11:45:57 · 5646 阅读 · 1 评论 -
HDFS权限问题
HDFS权限问题 Win下Eclipse提交hadoop程序出错:org.apache.hadoop.security.AccessControlException: Permission denied: user=mango, access=WRITE描述:在window下使用Eclipse进行hadoop的程序编写,然后Run on hadoop 后,出现如下错误:转载 2014-03-20 11:12:57 · 3280 阅读 · 0 评论 -
Kettle(PentahoDataIntegration)安装Hadoop-2.2.0插件
Kettle(PentahoDataIntegration)安装Hadoop-2.2.0插件1 安装前的准备工作 1.1 Pentaho DataIntegration当前的CE 版本Pentaho DataIntegration 是5.0.1,下载地址:http://www.pentaho.com/download/。你也可以尝试企业版EE,这里不做介绍了。下载完成后转载 2014-03-06 20:23:45 · 6361 阅读 · 0 评论 -
解决:kettle连接hadoop 2.20后,导致不能连接Hive的问题
kettle如何连接hadoop 2.20,参见 “Kettle(PentahoDataIntegration)安装Hadoop-2.2.0插件”原本官方下载的kettle的4.4版本,默认配置是可以链接hive(不需要拷贝问题),但配置hadoop2.20的文件进来后,无法链接依据错误提示,明显是kettle的链接hive的驱动有问题,思考为了链接hadoop原创 2014-03-06 20:40:01 · 5007 阅读 · 0 评论 -
hadoop的回收站,帮助恢复误删的数据
利用 hadoop fs -rmr (目录名)删除目录时易出现误删除的操作,如何解决:建立回收站!具体操作为:找到配置文件core-site.xml,在其中添加如下信息: fs.trash.interval 10080 Number of minutes between trash checkpoints. If z转载 2014-03-06 20:08:09 · 4342 阅读 · 0 评论 -
hadoop多次格式化后,导致datanode启动不了
hadoop namenode -format多次格式化后,datanode启动不了0.20.2版本解决方式:1、查看名称节点上(即在配置文件中配置的hadoop.tmp.dir参数路径)/usr/hadoop0.20.2/hadoop-huanghz/dfs/name/current/文件夹中VERSION文件中的namespaceid;2、在两个数据节点修改上d原创 2014-03-06 20:11:11 · 13413 阅读 · 0 评论 -
Hadoop FS Shell命令
FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path 。对 HDFS文件系统,scheme是hdfs ,对本地文件系统,scheme是file 。其中scheme和 authority参数都是可选的,如果未加指定,就会使用配置中指定的默认s转载 2014-03-06 18:55:56 · 526 阅读 · 0 评论 -
Hadoop调优
Hadoop调优mapred.tasktracker.map.tasks.maximum 官方解释:The maximum number of map tasks that will be run simultaneously by a task tracker. 我的理解:一个tasktracker最多可以同时运行的map任务数量 默认值转载 2014-03-17 17:10:43 · 683 阅读 · 0 评论 -
hive-调优笔记:JVM重用,并行执行、调整reducer个数的用处
解释:1、JVM重用是hadoop调优参数的内容,对hive的性能具有非常大的影响,特别是对于很难避免小文件的场景或者task特别多的场景,这类场景大多数执行时间都很短。hadoop默认配置是使用派生JVM来执行map和reduce任务的,这是jvm的启动过程可能会造成相当大的开销,尤其是执行的job包含有成千上万个task任务的情况。 JVM重用可以使得JVM实例在同一个JOB中重原创 2014-03-17 20:01:40 · 11806 阅读 · 0 评论 -
hadoop三个配置文件的参数含义说明
[置顶] hadoop三个配置文件的参数含义说明1 获取默认配置配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:转载 2014-03-28 17:23:43 · 754 阅读 · 0 评论 -
hive 1.2.1的常量大坑bug
同事发现在hive 1.2.1和hive 0.13版本里面赋值常量,同样的SQL,得到结果是不同的, SQL如下:insert overwrite table testselect month_id, client_version, mac_id, 202030106 as kpi_id, kpi_value,原创 2016-07-07 17:48:04 · 2383 阅读 · 0 评论