
Apache Hadoop
文章平均质量分 69
丑大狗
不想成为
数据科学家
的DBA
不是好开发
展开
-
Wrong FS: hdfs expected: file:
场景:错误java.lang.IllegalArgumentException:Wrong FS: hdfs:/, expected: file:///异常java.lang.IllegalArgumentException: Wrong FS: hdfs:/, expected: file:/// 在hadoop-2.2.0版本中对hdfs进行简单的测试操作,代码如下所示原创 2016-07-10 17:53:28 · 1081 阅读 · 0 评论 -
jps 报process information unavailable解决办法
jps时出现如下信息:4791 -- process information unavailable解决办法:进入tmp目录,cd /tmp删除该目录下名称为hsperfdata_{username}的文件夹然后jps,清净了。转载 2016-08-19 21:49:08 · 891 阅读 · 0 评论 -
CDH Hadoop 5.5.4 安装配置 完整记录
一、Cloudera Manager/CDH51.关于cloudera manager和CDH是什么,这里不做详细介绍了。2.官网的安装指南官方文档提供了三种安装方式: 在线自动安装/手动安装包安装/手动使用cloudera manager管理安装 此处使用第三种方式安装hadoop集群。 二、环境规划1.系统:CentOS 6.4_x86 master:4原创 2016-08-20 13:11:54 · 2785 阅读 · 0 评论 -
理解flume hdfs sink round 和roll
我们在配置flume hdfs sink 的时候注意这两个配置项,比如:collector1.sinks.sink_hdfs.hdfs.rollSize = 2048000000 collector1.sinks.sink_hdfs.hdfs.rollCount = 0 collector1.sinks.sink_hdfs.hdfs.rollInterval = 21600coll原创 2016-08-09 15:49:08 · 2762 阅读 · 0 评论 -
java.lang.NullPointerException: Expected timestamp in the Flume event headers, but it was null
解决方案如下:配置文件中添加如下内容a1.sinks.k1.hdfs.useLocalTimeStamp = true原创 2016-08-09 16:16:04 · 4544 阅读 · 2 评论 -
Flume采集数据到HDFS时,文件中有乱码
参数hdfs.fileType 默认值SequenceFile 参数描述File format: currently SequenceFile, DataStream or CompressedStream(1)DataStream will not compress output file and please don’t原创 2016-08-09 16:24:03 · 6366 阅读 · 0 评论 -
Hadoop windows 本地执行Mapreduce 报错 Error while running command to get file permissions
package cn.hadoop.mr.flowsum;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.apache.hadoop.ma原创 2016-08-09 17:16:26 · 10604 阅读 · 5 评论 -
hadoop从入门到放弃(一)之flume获取数据存入hdfs
一、解压flume到/hadoop/目录下tar -zxvf apache-flume-1.6.0-bin.tar.gz -C /hadoop/二、配置flume配置文件[hadoop@hadoop01 flume]$ cat conf/agent1.conf# Name the components on this agentagent1.sources = spo原创 2016-08-09 16:49:14 · 3643 阅读 · 0 评论 -
Hadoop HDFS清空回收站
-bash-4.1$ hadoop fs -rm -r .Trash原创 2016-08-22 17:13:10 · 4010 阅读 · 0 评论 -
spark从入门到放弃 之 分布式运行jar包
scala代码如下:import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.SparkContext._/** * 统计字符出现次数 */object WordCount { def main(args: Array[String]) {原创 2016-08-22 16:04:26 · 8405 阅读 · 2 评论 -
impala-shell 启动报错
在daemon Node执行该命令,Namenode不行。原创 2016-09-20 20:59:45 · 1962 阅读 · 0 评论 -
关于hive和impala互为前后台的两个坑
Impala 与 Hive 之间互为前后台 有时候你会发现,切换到 Hive 执行下数据加载或转换操作比较方便,特别是处理如 RCFile, SequenceFile, 和 Avro 等这些 Impala 暂时只支持查询不支持写入的数据文件格式无论你在 Hive 中 create, drop, 或 alter 了一个表或其他对象,当切换回 impala-shell 时,立即执行一个 I原创 2016-09-21 10:17:17 · 3362 阅读 · 0 评论 -
一个根据所给资源自动配置CDH中Hadoop等参数的工具
Python的名字为:cdh_auto_configuration.py,完整内容如下:#!/usr/bin/env pythonimport optparsefrom pprint import pprintimport loggingimport sysimport mathimport ast''' Reserved for OS + DN + NM, Map:原创 2016-09-21 10:57:02 · 548 阅读 · 0 评论 -
动态显示impala sql的执行进度
[bd103:21000] > set live_progress=true;LIVE_PROGRESS set to true原创 2016-09-28 17:34:33 · 4647 阅读 · 0 评论 -
一款Hadoop(Hive)与传统的RDBMS数据库(oracle、mysql、postgresql...)间进行数据传递的工具
Sqoop原创 2016-08-08 15:51:33 · 895 阅读 · 0 评论 -
cloudera hadoop 配置文件位置
cloudera hadoop 配置 文件 位置原创 2016-08-18 21:34:14 · 3946 阅读 · 0 评论 -
Hive 报错 java.lang.NoSuchMethodError: org.apache.hadoop.hive.ql.ppd.ExprWalkerInfo.getConvertedNode
系统环境:Hadoop 2.6.0Hive 1.1.1JDK 1.7.0_60操作系统:CentOS 6.4报错信息:在Hive中执行创建表,导入数据,不带where语句的查询都没有问题。但是带where语句时报错, 如下:hive (timezipper)> SELECT orderid,createtime,modifiedtime,status原创 2016-08-03 11:29:12 · 1583 阅读 · 0 评论 -
copyToLocalFile NullPointerException
用fs.copyToLocalFile( hdfsPath,localPath);下载hdfs的文件会报NullPointerException,具体报错为:java.lang.NullPointerException at java.lang.ProcessBuilder.start(ProcessBuilder.java:1012) at org.apache.ha转载 2016-07-10 22:54:56 · 2228 阅读 · 3 评论 -
Hadoop Error: java.io.IOException: Unable to initialize any output collector
[hadoop@hadoop01 ~]$ hadoop jar mr.jar cn.hadoop.mr.WCRunner16/07/24 16:52:08 INFO client.RMProxy: Connecting to ResourceManager at hadoop01/192.168.56.200:803216/07/24 16:52:09 WARN mapreduce.JobSu原创 2016-07-24 18:24:21 · 3286 阅读 · 2 评论 -
Hadoop词频统计(一)之集群模式运行
map:package cn.hadoop.mr;import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoo原创 2016-07-24 19:03:04 · 1383 阅读 · 0 评论 -
Hadoop词频统计(二)之本地模式运行
想要在windows上以本地模式运行hadoop就必须要在windows上配置好hadoop的本地运行环境。我们需要下载编译好的hadoop二进制包。下载地址如下:链接:http://pan.baidu.com/s/1skE4fQt 密码:or48下载完成后配置windows环境变量:HADOOP_HOME=C:\Program Files (x86)\hadoop-2.6.0原创 2016-07-25 15:44:51 · 1370 阅读 · 0 评论 -
错误Name node is in safe mode的解决方法
hadoop dfsadmin -safemode leave原创 2016-07-08 18:25:28 · 533 阅读 · 0 评论 -
could only be replicated to 0 nodes instead of minReplication (=1)
报错put: File /*.sql._COPYING_ could only be replicated to 0 nodes instead of minReplication (=1). There are 1 datanode(s) running and 1 node(s) are excluded in this operation.该问题原因为命名结点无法访问数原创 2016-07-08 18:27:22 · 1186 阅读 · 1 评论 -
There appears to be a gap in the edit log. We expected txid 1, but got txid 16
java.io.IOException: There appears to be a gap in the edit log. We expected txid 1, but got txid 16.namenode进程中出现如下报错信息原因:namenode元数据被破坏,需要修复解决:恢复一下namenodehadoop namenode -recover一路选择c原创 2016-07-08 21:39:21 · 8719 阅读 · 1 评论 -
启动hadoop 2.6遇到的datanode启动不了
查看日志如下:2014-12-22 12:08:27,264 INFO org.mortbay.log: Started HttpServer2$SelectChannelConnectorWithSafeStartup@0.0.0.0:500752014-12-22 12:08:27,692 INFO org.apache.hadoop.hdfs.server.datanode.Data转载 2016-07-08 21:48:33 · 529 阅读 · 0 评论 -
hdfs 出现坏块
hdfs fsck /先用该命令检测存在哪些坏块 ******************************** CORRUPT FILES: 28 MISSING BLOCKS: 28 MISSING SIZE: 1078476 B CORRUPT BLOCKS: 28 ***********************原创 2016-07-09 16:15:22 · 9658 阅读 · 0 评论 -
运行hadoop fs -ls 命令显示本地目录问题
环境CentOS6.4 CDH5.2安装完成后发生如下问题[hdfs@hadoop01 ~]$ hadoop fs -ls /Found 25 items-rw-r--r-- 1 root root 0 2016-08-17 10:47 /.autofsckdr-xr-xr-x - root root 4096 2016-原创 2016-08-17 11:14:20 · 8398 阅读 · 0 评论 -
Python函数式编程之map() reduce()
mapPython函数式编程之map使用(一个seq)# 使用mapprint map( lambda x: x%3, range(6) ) # [0, 1, 2, 0, 1, 2] #使用列表解析print [x%3 for x in range(6)] # [0, 1, 2, 0, 1, 2]Python函数式编程之map使用(多个seq)print m原创 2016-08-17 11:43:54 · 322 阅读 · 0 评论 -
解决hive启动时报错 Found class jline.Terminal, but interface was expected
解决方案:可以备份并且移除 $HADOOP_HOME/share/hadoop/yarn/lib/ 下的jline-0.9.94.jar文件,它与beeline的依赖产生冲突。原创 2016-08-02 13:50:35 · 734 阅读 · 0 评论 -
Hadoop真·高可用集群模式(7节点)环境搭建
Hadoop真·高可用集群模式环境搭建 目录一、 安装centos6.4 x86_64虚拟机7台; 11. 修改Linux主机名 12. 修改IP 13. 修改主机名和IP的映射关系 14. 关闭原创 2016-08-02 11:29:20 · 3778 阅读 · 0 评论 -
Hadoop如何修改HDFS文件存储块大小
在hdfs-site.xml配置文件里加上如下内容:dfs.blocksize2048dfs.namenode.fs-limits.min-block-size2048然后重启hadoop集群,新上传的文件就以2MB的块大小存储了原创 2016-08-03 10:20:17 · 2890 阅读 · 0 评论