- 博客(32)
- 资源 (2)
- 收藏
- 关注
原创 Sqoop介绍及使用
转至元数据起始Apache Sqoop是用来实现结构型数据(如关系数据库)和Hadoop之间进行数据迁移的工具。它充分利用了MapReduce的并行特点以批处理的方式加快数据的传输,同时也借助MapReduce实现了容错。项目地址:http://sqoop.apache.org/目前为止,已经演化出了2个版本:sqoop1和sqoop2。sqoop1的最新版本是1.4.
2014-12-05 13:37:52
5536
转载 Yarn在Shuffle阶段内存不足问题(error in shuffle in fetcher)
在Hadoop集群(CDH4.4, Mv2即Yarn框架)使用过程中,发现处理大数据集时程序报出如下错误:13/12/02 20:02:06 INFO mapreduce.Job: map 100% reduce 2%13/12/02 20:02:18 INFO mapreduce.Job: Task Id : attempt_1385983958793_0001_r_000000_1,
2014-11-20 09:28:05
1587
转载 【Hadoop】mahout推荐hadoop偏好矩阵-PreparePreferenceMatrixJob
mahout推荐包括两部分,一部分是单机版的推荐,主要是以org.apache.mahout.cf.taste.*包下面;另一种则是hadoop版本的推荐主要是以org.apache.mahout.cf.taste.hadoop.*包下面。下面我们针对hadoop版本进行分析。在org.apache.mahout.cf.taste.hadoop.item包下面的RecommenderJob开始。
2014-10-20 15:02:23
632
转载 Eclipse中如何清除EGit记住的GitHub用户名和密码
现在公司的项目都是使用GitHub存储,然后再Eclipse中安装Git插件,pull或push代码的。第一次pull项目的时候eclipse记住了填写的github账号和密码,一直都很正常。昨天登录github的时候忘记密码了,于是选择重置并修改后!代码就同步不了了,也不能pull和push,一直报没有认证。我意识到eclipse记住的还是以前的密码。但找了半天也没找到,上网查也没人提过这个问题
2013-12-13 11:30:55
673
转载 map和reduce 个数的设定 (Hive优化)经典
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有
2013-11-18 09:25:00
531
转载 java 多线程 CountDownLatch用法
CountDownLatch,一个同步辅助类,在完成一组正在其他线程中执行的操作之前,它允许一个或多个线程一直等待。主要方法 public CountDownLatch(int count); public void countDown(); public void await() throws InterruptedException 构造方法参数指定了计数的次数
2013-08-01 08:58:09
486
原创 RCFile SequenceFile and Avro comparison Test
Hive原始文件1421M,按snappy压缩之后结果: select count(*) from tableselect count(*) from (select key from table where key='') a; file typet
2013-05-17 10:19:03
1522
原创 搭建Hive的图形界面
添加war包到hive的lib目录:下载添加到/usr/lib/hive/lib/hive-hwi-0.9.0-cdh4.1.0.war添加配置到hive-site.xml hive.hwi.listen.host 0.0.0.0 This is the host address the Hive Web Interface wil
2013-05-17 10:17:51
1796
原创 sqoop导数据
安装:tar –xzvf sqoop-1.4.1-cdh4.1.0.tar.gzadd sqljdbc4.jar into /usr/lib/sqoop/lib设置PATHexport SQOOP_HOME=/usr/lib/sqoopexport ANT_LIB=/home/op1/jasonliao/apache-ant-1.9.0/libexport PA
2013-05-17 10:16:49
1266
原创 storm安装部署
1.因为storm依赖的组件很多,建议先安装好yum. 我使用的yum源是: [company]name=companybaseurl=http://yum.company.com/rhel_5.4_repo/enabled=1gpgcheck=0gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-redhat-release2
2013-03-14 14:31:09
862
原创 Hive复杂结构表示
Array Array:[1,2,3] 文件格式: 1,2,3Array: ["a","b","c"] 文件格式: a,b,c MapMap:{"k1":1,"k2":2,"k3",3} 文件格式: k1:1,k2:2,k3:3Map:{"k1":"value1","k2":"value2","k3","value3"} 文件格式:
2013-03-14 14:27:34
712
原创 hive udf和UDAF应用
hive udf&udaf说明使用说明:也可参见http://www.linuxidc.com/Linux/2012-01/52689.htm主要步骤有:1.添加jar到hive session 中如果在hive-site.xml中定义了hive.aux.jars.path属性的值,则可以省略这个步骤>
2013-03-14 14:26:52
890
原创 压缩hive输出
hive> set hive.exec.compress.output=true; 启用压缩hive> set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; 指定格式 查询INSERT OVERWRITE DIRECTORY '/bip/test' SELECT * FROM ik_
2013-03-14 14:26:19
1052
转载 分布式数据库 HBase
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bi
2013-03-14 14:19:51
550
转载 Hbase集群间数据迁移方法总结 .
呵呵,今天花了一天的时间查资料做测试,略微的总结了一下hbase数据迁移的方法。一、需要在hbase集群停掉的情况下迁移 步骤:(1)执行hadoop distcp -f filelist "hdfs://new cluster ip:9000/hbasetest" (2)在new cluster执行./hbase org.jruby.Main add_tab
2013-03-13 11:19:58
731
原创 hadoop部署异常
异常:java.io.IOException: File /home/pplive/data/hadoop/tmp/mapred/system/jobtracker.info could only be replicated to 0 nodes, instead of 1 at org.apache.hadoop.hdfs.server.namenode.FSNamesys
2013-03-12 17:19:16
636
转载 hbase的replication使用
hbase-0.90.0的一个重要改进是引入了replication机制,使它的数据完整性得到了进一步的保障。虽然这一功能还不太完善,但是今后必然会变得更加重要。hbase的replication机制很像mysql statement-based replication。它是通过WALEdit和hlog来实现的。当请求发送给master cluster时,hlog日志放入hdfs的同时进入
2013-03-12 11:04:07
746
转载 Hadoop0.23.0初探2---HDFS Federation部署
Hadoop的目录文件结构:.|-- LICENSE.txt|-- NOTICE.txt|-- README.txt|-- bin|-- conf|-- etc|-- export_hadoop.sh|-- hadoop-0.23.0-gridmix.jar|-- hadoop-0.23.0-streaming.jar|-- hadoop-mapredu
2013-03-06 14:39:31
553
转载 Hadoop0.23.0初探1---前因后果
最近Hadoop社区最火热的事情莫过于Hortonworks公布了Hadoop最新版本(0.23.0),它标志着Hadoop新时代的到来。本文作为系列文章的第一篇,将结合Hadoop-0.20.*的特点,以及Hadoop核心理念,分析Hadoop新版本的特征。1、Hadoop 0.20.*的局限性HDFS单NameNode的不足 1)扩展性问题。可以随着数据量进行水平扩
2013-03-06 14:32:12
514
转载 HBase性能调优
因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer
2013-03-06 13:35:20
477
转载 线程的状态转换图
线程在一定条件下,状态会发生变化。线程变化的状态转换图如下: 1、新建状态(New):新创建了一个线程对象。 2、就绪状态(Runnable):线程对象创建后,其他线程调用了该对象的start()方法。该状态的线程位于可运行线程池中,变得可运行,等待获取CPU的使用权。 3、运行状态(Running):就绪状态的线程获取了CPU,执行程序代码。 4、阻塞状态(Blocked
2013-03-04 15:55:13
322
转载 对HBase中Bloomfilter类型的设置及使用的理解
1.Bloomfilter的原理? 可参考 http://hi.baidu.com/yizhizaitaobi/blog/item/cc1290a0a0cd69974610646f.html 2.Bloomfilter在HBase中的作用? HBase利用Bloomfilter来提高随机读(Get)的性能,对于顺序读(Scan)而言,设置Bloomfilter是没有作用的(0.
2013-03-04 15:34:47
501
转载 中小规模Hadoop集群优化
人人网的数据平台分为事前和事后两部分。事前数据分析是在开发阶段就有系统规划的统计点,事后数据分析恰恰相反,一般统计的是现有业务的历史。这两种方法是互补的,事先埋点的粒度更细,实时性更强,事后统计的适用范围更广,调整更灵活。我们的事后数据分析用Hadoop搭建。这个集群从上个月开始遇到一系列性能问题,在逐一解决的过程中,积累了以下的优化经验。1. 网络带宽人人网的Hadoop集群现在有5
2013-03-01 10:58:01
435
原创 hbase性能评估
hbase org.apache.hadoop.hbase.PerformanceEvaluation -hUsage: java org.apache.hadoop.hbase.PerformanceEvaluation \ [--miniCluster] [--nomapred] [--rows=ROWS] Options: miniCluster Run the
2013-02-28 15:43:59
696
原创 hbase和hive整合
一 、简介Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 Hive与HBase的整合功能的实现是利用两者本身对外的
2013-02-27 11:32:56
523
原创 linux IO命令
iostat -x 1 10000查看实时的IO流量iostat --helpUsage: iostat [ options... ] [ [ ] ]Options are:[ -c | -d ] [ -k | -m ] [ -t ] [ -V ] [ -x ] [ -n ] [ -h ] [ -N ][ [ ... ] | ALL ] [ -p [ | ALL ]
2013-02-27 10:14:45
719
转载 java concurrent 探秘
我们都知道,在JDK1.5之前,Java中要进行业务并发时,通常需要有程序员独立完成代码实现,当然也有一些开源的框架提供了这些功能,但是这些依然没有JDK自带的功能使用起来方便。而当针对高质量Java多线程并发程序设计时,为防止死蹦等现象的出现,比如使用java之前的wait()、notify()和synchronized等,每每需要考虑性能、死锁、公平性、资源管理以及如何避免线程安全性方面带来的
2013-02-21 16:17:00
306
转载 hadoop对于压缩文件的支持及算法优缺点
【IT168 技术】hadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的,hadoop能够自动为我们 将压缩的文件解压,而不用我们去关心。 如果我们压缩的文件有相应压缩格式的扩展名(比如lzo,gz,bzip2等),hadoop就会根据扩展名去选择解码器解压。压缩格式工具算法文件扩展名多文件可分割性DEFLATE
2013-02-20 18:51:58
443
转载 Brewer’s CAP Theorem
Brewer(CAP)定理那么到底Brewer的定理是什么,为何它足以和1976年Manchester的punk演出媲美?Brewer 在2000年的演讲是基于他在UC Berkley的理论工作以及主持Inktomi(期间)的观察,是通过数年前Brewer和其他人,在如何构建高伸缩性系统(highly scalable system)时所做出的各种折衷方案的讨论(例如:SOSP(Sympo
2013-02-20 14:27:58
1141
转载 SQOOP的安装配置
SQOOP是一款开源的工具,主要用于在HADOOP与传统的数据库间进行数据的传递,下面从SQOOP用户手册上摘录一段描述Sqoop is a tool designed to transfer data between Hadoop andrelational databases. You can use Sqoop to import data from arelational databa
2013-02-18 17:33:26
444
转载 hadoop HDFS详解
一、HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。1.2、元数据节点(Namenode)和数据节点(
2013-02-18 15:19:26
494
原创 Flume 部署规划
Flume 是一套分布式的日志收集系统,支持各种数据输出,并支持将数据合并导入hadoop。 Flume 安装需要一定的软件环境:1.jdk 1.6+2.hadoop 安装包3.flume 软件包 jdk 可以从网上下载,解压后在 /etc/profile中增加java_home的环境变量即可hadoop 安装包可以到 https://ccp.cloudera.
2013-02-16 11:11:24
664
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人