
hadoop
宏轩
这个作者很懒,什么都没留下…
展开
-
MapReduce提交作业常见问题
今天在hadoop集群上跑MapReduce程序,遇到的一些问题和解决的方法,希望对大家有帮助!1.从HDFS上传下载文件到第一种错误:Java代码 "font-size: medium;">Exception inthread"main"java.lang.IllegalArgumentException: Wrong FS: hdf转载 2014-04-06 17:43:45 · 1098 阅读 · 0 评论 -
Hadoop 2.x的DistributedCache无法工作的问题
转自:http://www.codelast.com/?p=8131现象:和这个帖子描述的一样,简单说来就是,在Hadoop 2.x上,用新的DistributedCache的API,在mapper中会获取不到这个cache文件。下面就详细地描述一下新旧API的用法区别以及解决办法。『1』旧API将HDFS文件添加到distributed cache中:转载 2015-05-05 01:20:53 · 1783 阅读 · 1 评论 -
Hadoop中的压缩Codec
作为输入 当压缩文件作为MapReduce的输入时,MapReduce将自动通过扩展名找到相应的Codec对其解压。作为输出 当MapReduce的输出文件需要压缩时,可以更改mapred.output.compress为true,mapred.output.compression.codec为想要使用的codec的类名称,当转载 2015-05-07 01:35:54 · 2401 阅读 · 0 评论 -
HDFS 的Trash回收站功能的配置、使用
文件的删除和恢复 和Linux系统的回收站设计一样,HDFS会为每一个用户创建一个回收站目录:/user/用户名/.Trash/,每一个被用户通过Shell删除的文件/目录,在系统回收站中都一个周期,也就是当系统回收站中的文件/目录在一段时间之后没有被用户回复的话,HDFS就会自动的把这个文件/目录彻底删除,之后,用户就永远也找不回这个文件/目录了。在HDFS内部的具体实现就是在原创 2015-05-17 22:32:18 · 1457 阅读 · 1 评论 -
hadoop 配置项的调优
dfs.block.size 决定HDFS文件block数量的多少(文件个数),它会间接的影响Job Tracker的调度和内存的占用(更影响内存的使用),mapred.map.tasks.speculative.execution=true mapred.reduce.tasks.speculative.execution=true这是两个推测式执行的配置项,默认是true转载 2015-05-22 00:47:36 · 530 阅读 · 0 评论 -
关于几种压缩算法以及hadoop和hbase中的压缩配置说明
Hadoop中常用的压缩算法有bzip2、gzip、lzo、snappy,其中lzo、snappy需要操作系统安装native库才可以支持下面这张表,是比较官方一点的统计,不同的场合用不同的压缩算法。bzip2和GZIP是比较消耗CPU的,压缩比最高,GZIP不能被分块并行的处理;Snappy和LZO差不多,稍微胜出一点,cpu消耗的比GZIP少。通常情况下,想在CPU和IO之间取转载 2015-06-02 00:41:40 · 859 阅读 · 0 评论 -
ZeroCopyLiteralByteString cannot access superclass
问题描述在HBase上运行MapReduce作业时,报如下异常:IllegalAccessError: class com.google.protobuf.HBaseZeroCopyByteString cannot access its superclass com.google.protobuf.LiteralByteString使用HBase环境如下:CDH5.0.1, HB转载 2015-04-23 15:08:07 · 2383 阅读 · 0 评论 -
使用ssh-keygen和ssh-copy-id三步实现SSH无密码登录
ssh-keygen 产生公钥与私钥对.ssh-copy-id 将本机的公钥复制到远程机器的authorized_keys文件中,ssh-copy-id也能让你有到远程机器的home, ~./ssh , 和 ~/.ssh/authorized_keys的权利第一步:在本地机器上使用ssh-keygen产生公钥私钥对jsmith@local-host$ [Not转载 2015-05-19 23:03:19 · 1031 阅读 · 0 评论 -
Hadoop参数汇总
Hadoop参数汇总@(hadoop)[配置]linux参数以下参数最好优化一下:文件描述符ulimit -n用户最大进程 nproc (hbase需要 hbse book)关闭swap分区设置合理的预读取缓冲区Linux的内核的IO调度器JVM参数JVM方面的优化项Hadoop Performance Tuning GuideHadoo转载 2015-05-24 01:49:27 · 646 阅读 · 0 评论 -
如何使用Hadoop的JobControl
转自:http://qindongliang.iteye.com/blog/2064281使用Hadoop里面的MapReduce来处理海量数据是非常简单方便的,但有时候我们的应用程序,往往需要多个MR作业,来计算结果,比如说一个最简单的使用MR提取海量搜索日志的TopN的问题,注意,这里面,其实涉及了两个MR作业,第一个是词频统计,第两个是排序求TopN,这显然是需要两个MapReduce作转载 2015-06-14 15:18:07 · 2489 阅读 · 0 评论 -
海量Web日志分析 用Hadoop提取KPI统计指标
海量Web日志分析 用Hadoop提取KPI统计指标Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flum转载 2015-07-07 00:18:34 · 922 阅读 · 0 评论 -
zookeeper 伪分布式安装
1 下载zookeeper安装包 下载地址 http://apache.fayea.com/zookeeper/ 我下载的是zookeeper-3.4.6.tar.gz2 解压缩 将zookeeper-3.4.6.tar.gz拷贝到/usr/local目录下 执行命令 tar -zxvf zookeeper-3.4.6.tar.gz 解压后的目录为原创 2015-07-15 01:16:07 · 1648 阅读 · 0 评论 -
修改map分片个数
方式一:TextInputFormat.setMaxInputSplitsize(job,1024*1024*10);TextInputFormat.setMinInputSplitsize(job,1024*1024*50);方式二:在configration内设置以下参数mapreduce.input.fileinputformat.split.minsize=原创 2015-09-08 15:09:52 · 1261 阅读 · 0 评论 -
CDH 的Cloudera Manager免费与收费版的对比表
CDH 特性免费版付费版Deployment, Configuration & Management系统管理Automated Deployment & Hadoop Readiness Checks自动化部署及快速检查••Install the complete CDH stack in minute转载 2015-11-08 18:06:15 · 5795 阅读 · 0 评论 -
linux虚拟机网卡启动失败问题处理
1 通过ifconfig查询虚拟机的ip地址没有了2 重启网卡报以下错误connecton activation failed:Device not managed by NetwordManager or unavailable3 查看NetworkManager服务是否启动ps aux |grep NetworkManager4 启动该网络管理程序servic原创 2015-11-22 10:49:54 · 4865 阅读 · 0 评论 -
Hadoop生成HFile直接入库HBase心得
转载请标明出处:http://blackwing.iteye.com/blog/1991380 hbase自带了ImportTsv类,可以直接把tsv格式(官方教材显示,是\t分割各个字段的文本格式)生成HFile,并且使用另外一个类org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles直接把HFile移动到hbase对应的hdf转载 2015-05-10 13:42:10 · 5529 阅读 · 0 评论 -
hadoop 之DefaultStringifier
今天在读hadoop源码时发现DefaultStringifier这个类很有意思,主要是用来从configuration对象中get或set key、value键值对的时候使用。具体原因不是很清楚,在网上google了下: 写MapReduce程序通常要传递各种各样的参数,选择合适的方式来传递参数既能提高工作效率,也可以避免bug的产生。根据参数的大小,可以粗略的分为以下几转载 2015-05-10 13:38:10 · 1387 阅读 · 0 评论 -
Hadoop中Writable和WritableComparable区别
Hadoop的key和value的传递序列化需要涉及两个重要的接口Writable和WritableComparable1> Writable:void write(DataOutput out) throws IOException; void readFields(DataInput in) throws IOException; 也就是读数据和转载 2015-04-19 22:26:48 · 569 阅读 · 0 评论 -
HBase在淘宝的应用和优化小结
本文来自于NoSQLFan联合作者@koven2049,他在淘宝从事Hadoop及HBase相关的应用和优化。对Hadoop、HBase都有深入的了解,本文就是其在工作中对HBase的应用优化小结,分享给大家。原文地址:http://walkoven.com/?p=57文章PDF下载:hbase optimization and apply summary in taobao.转载 2014-04-12 19:20:28 · 872 阅读 · 0 评论 -
Zookeeper 安装和配置
Zookeeper的安装和配置十分简单, 既可以配置成单机模式, 也可以配置成集群模式. 下面将分别进行介绍.单机模式点击这里下载zookeeper的安装包之后, 解压到合适目录. 进入zookeeper目录下的conf子目录, 创建zoo.cfg:Bash代码 tickTime=2000 dataDir=/Users/apple/zooke转载 2014-11-24 00:22:32 · 661 阅读 · 0 评论 -
eclipse中hadoop2.3.0环境部署及在eclipse中直接提交mapreduce任务
转自:http://my.oschina.net/mkh/blog/3401121 eclipse中hadoop环境部署概览 eclipse中部署hadoop包括两大部分:hdfs环境部署和mapreduce任务执行环境部署。一般hdfs环境部署比较简单,部署后就 可以在eclipse中像操作windows目录一样操作hdfs文件。而mapreduce任务执行环境的部署转载 2014-12-21 00:06:09 · 5043 阅读 · 0 评论 -
hadoop2.x常用端口及定义方法
Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper:组件节点默认端口配置用途说明H转载 2014-12-21 00:07:30 · 911 阅读 · 0 评论 -
hadoop命令详解
一、用户命令1、archive命令(1).什么是Hadoop archives?Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据(形式是_index和_masterindx)和数据文件(part-*)。_index文件包含了档案中的文件的文件名转载 2014-12-21 00:16:29 · 546 阅读 · 0 评论 -
自学大数据:用以生产环境的Hadoop版本比较
一、背景介绍生产环境中,hadoop的版本选择是一个公司架构之时,很重要的一个考虑因素。这篇文章根据就谈谈现在主流的hadoop版本的比较。如果有不同意见,或者指正,希望大家能交流。Apache Hadoop:Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是转载 2015-02-01 19:39:31 · 4628 阅读 · 0 评论 -
Cloudera Manager 5 和 CDH5 本地(离线)安装指南(Hadoop集群搭建)
转载:http://www.wangyongkui.com/hadoop-cdh5。系统环境4台联想R510服务器,其中master节点4核心、8GB,其它节点双核心、4GB。网卡:100M。共有硬盘6TB。网络环境内网。Centos6.5 x64(安装系统时尽量把开发包安装齐全,另master节点需要Mysql可以在安装系统时勾选)。准备工作卸转载 2015-01-15 21:31:20 · 3093 阅读 · 1 评论 -
Hadoop JobHistory
转自:http://www.cnblogs.com/luogankun/p/4019303.htmlhadoop jobhistory记录下已运行完的MapReduce作业信息并存放在指定的HDFS目录下,默认情况下是没有启动的,需要配置完后手工启动服务。mapred-site.xml添加如下配置property> name>mapreduce.jobhistory转载 2014-12-28 23:42:11 · 2258 阅读 · 0 评论 -
Hadoop参数汇总
转自:http://segmentfault.com/blog/timger/1190000000709725@(hadoop)[配置]linux参数以下参数最好优化一下:文件描述符ulimit -n用户最大进程 nproc (hbase需要 hbse book)关闭swap分区设置合理的预读取缓冲区Linux的内核的IO调度器JVM参数转载 2015-01-24 01:39:36 · 1674 阅读 · 0 评论 -
内存有限的情况下 Spark 如何处理 T 级别的数据?
简单起见,下述答案仅就无shuffle的单stage Spark作业做了概要解释。对于多stage任务而言,在内存的使用上还有很多其他重要问题没有覆盖。部分内容请参考评论中 @邵赛赛 给出的补充。Spark确实擅长内存计算,内存容量不足时也可以回退,但题主给出的条件(8GB内存跑1TB数据)也确实是过于苛刻了……首先需要解开的一个误区是,对于Spark这类内存计算系统,并不是说要处理多大规转载 2015-03-08 23:17:56 · 4352 阅读 · 0 评论 -
Hadoop源码导入Eclipse
需要进一步学习hadoop、需要看看内部源码实现,因此需要将hadoop源码导入都eclipse中,简单总结一下,具体步骤如下:首先确保已经安装了git、maven3、protobuf2.5、如果没有安装需要提前安装一下1、下载hadoop源码git clone git://git.apache.org/hadoop-common.git2、进入hadoop-com转载 2015-04-19 13:37:12 · 1814 阅读 · 0 评论 -
MapReduce的自制Writable分组输出及组内排序
问题描述:输入文件格式如下:name1 2name3 4name1 6name1 1name3 3name1 0要求输出的文件格式如下:name1 0,1,2,6name3 3,4要求是按照第一列分组,name1与name3也是按照顺序排列的,组内升序排序。转载 2015-04-12 23:31:41 · 986 阅读 · 0 评论 -
MapReduce DataJoin 链接多数据源
主要介绍用DataJoin类来链接多数据源,先看一下例子,假设二个数据源customs和orderscustomer ID Name PhomeNumber1 赵一 025-5455-5662 钱二 025-4587-5653转载 2015-04-12 23:34:36 · 518 阅读 · 0 评论 -
Hadoop Writable机制
《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》第3章序列化与压缩,本章涉及了org.apache.hadoop.io包下最重要的两部分内容:序列化和压缩。本节为大家介绍Hadoop Writable机制。AD:WOT2015 互联网运维与开发者大会 热销抢票3.1.4 Hadoop Writable机制为了支转载 2015-04-19 22:59:42 · 615 阅读 · 0 评论 -
spark Intellij IDEA及eclipse开发环境搭建
Apache Spark探秘:利用Intellij IDEA构建开发环境http://dongxicheng.org/framework-on-yarn/apache-spark-intellij-idea/利用Eclipse构建Spark集成开发环境http://dongxicheng.org/framework-on-yarn/apache-spark-inte原创 2016-10-20 10:11:53 · 1115 阅读 · 0 评论