jasonliaoxiaoge-优快云博客

原创 Sqoop介绍及使用

转至元数据起始Apache Sqoop是用来实现结构型数据（如关系数据库）和Hadoop之间进行数据迁移的工具。它充分利用了MapReduce的并行特点以批处理的方式加快数据的传输，同时也借助MapReduce实现了容错。项目地址：http://sqoop.apache.org/目前为止，已经演化出了2个版本：sqoop1和sqoop2。sqoop1的最新版本是1.4.

2014-12-05 13:37:52 5536

转载 Yarn在Shuffle阶段内存不足问题(error in shuffle in fetcher)

在Hadoop集群（CDH4.4, Mv2即Yarn框架）使用过程中，发现处理大数据集时程序报出如下错误：13/12/02 20:02:06 INFO mapreduce.Job: map 100% reduce 2%13/12/02 20:02:18 INFO mapreduce.Job: Task Id : attempt_1385983958793_0001_r_000000_1,

2014-11-20 09:28:05 1587

转载【Hadoop】mahout推荐hadoop偏好矩阵-PreparePreferenceMatrixJob

mahout推荐包括两部分，一部分是单机版的推荐，主要是以org.apache.mahout.cf.taste.*包下面；另一种则是hadoop版本的推荐主要是以org.apache.mahout.cf.taste.hadoop.*包下面。下面我们针对hadoop版本进行分析。在org.apache.mahout.cf.taste.hadoop.item包下面的RecommenderJob开始。

2014-10-20 15:02:23 632

转载 Eclipse中如何清除EGit记住的GitHub用户名和密码

现在公司的项目都是使用GitHub存储，然后再Eclipse中安装Git插件，pull或push代码的。第一次pull项目的时候eclipse记住了填写的github账号和密码，一直都很正常。昨天登录github的时候忘记密码了，于是选择重置并修改后！代码就同步不了了，也不能pull和push，一直报没有认证。我意识到eclipse记住的还是以前的密码。但找了半天也没找到，上网查也没人提过这个问题

2013-12-13 11:30:55 673

转载 map和reduce 个数的设定（Hive优化）经典

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input目录下有

2013-11-18 09:25:00 531

转载 java 多线程 CountDownLatch用法

CountDownLatch，一个同步辅助类，在完成一组正在其他线程中执行的操作之前，它允许一个或多个线程一直等待。主要方法 public CountDownLatch(int count); public void countDown(); public void await() throws InterruptedException 构造方法参数指定了计数的次数

2013-08-01 08:58:09 486

原创 RCFile SequenceFile and Avro comparison Test

Hive原始文件1421M，按snappy压缩之后结果：　　　　　select count(*) from tableselect count(*) from (select key from table where key='') a;　file typet

2013-05-17 10:19:03 1522

原创搭建Hive的图形界面

添加war包到hive的lib目录：下载添加到/usr/lib/hive/lib/hive-hwi-0.9.0-cdh4.1.0.war添加配置到hive-site.xml hive.hwi.listen.host 0.0.0.0 This is the host address the Hive Web Interface wil

2013-05-17 10:17:51 1796

原创 sqoop导数据

安装：tar –xzvf sqoop-1.4.1-cdh4.1.0.tar.gzadd sqljdbc4.jar into /usr/lib/sqoop/lib设置PATHexport SQOOP_HOME=/usr/lib/sqoopexport ANT_LIB=/home/op1/jasonliao/apache-ant-1.9.0/libexport PA

2013-05-17 10:16:49 1266

原创 storm安装部署

1.因为storm依赖的组件很多，建议先安装好yum. 我使用的yum源是: [company]name=companybaseurl=http://yum.company.com/rhel_5.4_repo/enabled=1gpgcheck=0gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-redhat-release2

2013-03-14 14:31:09 862

原创 Hive复杂结构表示

Array Array:[1,2,3] 文件格式: 1,2,3Array: ["a","b","c"] 文件格式: a,b,c MapMap:{"k1":1,"k2":2,"k3",3} 文件格式: k1:1,k2:2,k3:3Map:{"k1":"value1","k2":"value2","k3","value3"} 文件格式:

2013-03-14 14:27:34 712

原创 hive udf和UDAF应用

hive udf&udaf说明使用说明：也可参见http://www.linuxidc.com/Linux/2012-01/52689.htm主要步骤有：1.添加jar到hive session 中如果在hive-site.xml中定义了hive.aux.jars.path属性的值，则可以省略这个步骤>

2013-03-14 14:26:52 890

原创压缩hive输出

hive> set hive.exec.compress.output=true; 启用压缩hive> set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; 指定格式查询INSERT OVERWRITE DIRECTORY '/bip/test' SELECT * FROM ik_

2013-03-14 14:26:19 1052

转载分布式数据库 HBase

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MapReduce来处理Bi

2013-03-14 14:19:51 550

转载 Hbase集群间数据迁移方法总结 .

呵呵，今天花了一天的时间查资料做测试，略微的总结了一下hbase数据迁移的方法。一、需要在hbase集群停掉的情况下迁移步骤：(1)执行hadoop distcp -f filelist "hdfs://new cluster ip:9000/hbasetest" (2)在new cluster执行./hbase org.jruby.Main add_tab

2013-03-13 11:19:58 731

原创 hadoop部署异常

异常：java.io.IOException: File /home/pplive/data/hadoop/tmp/mapred/system/jobtracker.info could only be replicated to 0 nodes, instead of 1 at org.apache.hadoop.hdfs.server.namenode.FSNamesys

2013-03-12 17:19:16 636

转载 hbase的replication使用

hbase-0.90.0的一个重要改进是引入了replication机制，使它的数据完整性得到了进一步的保障。虽然这一功能还不太完善，但是今后必然会变得更加重要。hbase的replication机制很像mysql statement-based replication。它是通过WALEdit和hlog来实现的。当请求发送给master cluster时，hlog日志放入hdfs的同时进入

2013-03-12 11:04:07 746

转载 Hadoop0.23.0初探2---HDFS Federation部署

2013-03-06 14:39:31 553

转载 Hadoop0.23.0初探1---前因后果

最近Hadoop社区最火热的事情莫过于Hortonworks公布了Hadoop最新版本(0.23.0)，它标志着Hadoop新时代的到来。本文作为系列文章的第一篇，将结合Hadoop-0.20.*的特点，以及Hadoop核心理念，分析Hadoop新版本的特征。1、Hadoop 0.20.*的局限性HDFS单NameNode的不足 1）扩展性问题。可以随着数据量进行水平扩

2013-03-06 14:32:12 514

转载 HBase性能调优

因官方Book Performance Tuning部分章节没有按配置项进行索引，不能达到快速查阅的效果。所以我以配置项驱动，重新整理了原文，并补充一些自己的理解，如有错误，欢迎指正。配置优化zookeeper.session.timeout默认值：3分钟（180000ms）说明：RegionServer与Zookeeper间的连接超时时间。当超时时间到后，ReigonServer

2013-03-06 13:35:20 477

转载线程的状态转换图

线程在一定条件下，状态会发生变化。线程变化的状态转换图如下：　　1、新建状态(New)：新创建了一个线程对象。　　2、就绪状态(Runnable)：线程对象创建后，其他线程调用了该对象的start()方法。该状态的线程位于可运行线程池中，变得可运行，等待获取CPU的使用权。　　3、运行状态(Running)：就绪状态的线程获取了CPU，执行程序代码。　　4、阻塞状态(Blocked

2013-03-04 15:55:13 322

转载对HBase中Bloomfilter类型的设置及使用的理解

1.Bloomfilter的原理？可参考 http://hi.baidu.com/yizhizaitaobi/blog/item/cc1290a0a0cd69974610646f.html 2.Bloomfilter在HBase中的作用？ HBase利用Bloomfilter来提高随机读（Get）的性能，对于顺序读（Scan）而言，设置Bloomfilter是没有作用的（0.

2013-03-04 15:34:47 501

转载中小规模Hadoop集群优化

人人网的数据平台分为事前和事后两部分。事前数据分析是在开发阶段就有系统规划的统计点，事后数据分析恰恰相反，一般统计的是现有业务的历史。这两种方法是互补的，事先埋点的粒度更细，实时性更强，事后统计的适用范围更广，调整更灵活。我们的事后数据分析用Hadoop搭建。这个集群从上个月开始遇到一系列性能问题，在逐一解决的过程中，积累了以下的优化经验。1. 网络带宽人人网的Hadoop集群现在有5

2013-03-01 10:58:01 435

原创 hbase性能评估

hbase org.apache.hadoop.hbase.PerformanceEvaluation -hUsage: java org.apache.hadoop.hbase.PerformanceEvaluation \ [--miniCluster] [--nomapred] [--rows=ROWS] Options: miniCluster Run the

2013-02-28 15:43:59 696

原创 hbase和hive整合

一、简介Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。 Hive与HBase的整合功能的实现是利用两者本身对外的

2013-02-27 11:32:56 523

原创 linux IO命令

iostat -x 1 10000查看实时的IO流量iostat --helpUsage: iostat [ options... ] [ [ ] ]Options are:[ -c | -d ] [ -k | -m ] [ -t ] [ -V ] [ -x ] [ -n ] [ -h ] [ -N ][ [ ... ] | ALL ] [ -p [ | ALL ]

2013-02-27 10:14:45 719

转载 java concurrent 探秘

我们都知道，在JDK1.5之前，Java中要进行业务并发时，通常需要有程序员独立完成代码实现，当然也有一些开源的框架提供了这些功能，但是这些依然没有JDK自带的功能使用起来方便。而当针对高质量Java多线程并发程序设计时,为防止死蹦等现象的出现，比如使用java之前的wait()、notify()和synchronized等，每每需要考虑性能、死锁、公平性、资源管理以及如何避免线程安全性方面带来的

2013-02-21 16:17:00 306

转载 hadoop对于压缩文件的支持及算法优缺点

【IT168 技术】hadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的，hadoop能够自动为我们将压缩的文件解压，而不用我们去关心。　　如果我们压缩的文件有相应压缩格式的扩展名(比如lzo，gz，bzip2等)，hadoop就会根据扩展名去选择解码器解压。压缩格式工具算法文件扩展名多文件可分割性DEFLATE

2013-02-20 18:51:58 443

转载 Brewer’s CAP Theorem

Brewer（CAP）定理那么到底Brewer的定理是什么，为何它足以和1976年Manchester的punk演出媲美？Brewer 在2000年的演讲是基于他在UC Berkley的理论工作以及主持Inktomi（期间）的观察，是通过数年前Brewer和其他人，在如何构建高伸缩性系统（highly scalable system）时所做出的各种折衷方案的讨论（例如：SOSP（Sympo

2013-02-20 14:27:58 1141

转载 SQOOP的安装配置

SQOOP是一款开源的工具，主要用于在HADOOP与传统的数据库间进行数据的传递，下面从SQOOP用户手册上摘录一段描述Sqoop is a tool designed to transfer data between Hadoop andrelational databases. You can use Sqoop to import data from arelational databa

2013-02-18 17:33:26 444

转载 hadoop HDFS详解

一、HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是，HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间。1.2、元数据节点(Namenode)和数据节点(

2013-02-18 15:19:26 494

原创 Flume 部署规划

Flume 是一套分布式的日志收集系统，支持各种数据输出，并支持将数据合并导入hadoop。 Flume 安装需要一定的软件环境：1.jdk 1.6+2.hadoop 安装包3.flume 软件包 jdk 可以从网上下载，解压后在 /etc/profile中增加java_home的环境变量即可hadoop 安装包可以到 https://ccp.cloudera.

2013-02-16 11:11:24 664

jasonliaoxiaoge的专栏