自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (2)
  • 收藏
  • 关注

原创 Sqoop介绍及使用

转至元数据起始Apache Sqoop是用来实现结构型数据(如关系数据库)和Hadoop之间进行数据迁移的工具。它充分利用了MapReduce的并行特点以批处理的方式加快数据的传输,同时也借助MapReduce实现了容错。项目地址:http://sqoop.apache.org/目前为止,已经演化出了2个版本:sqoop1和sqoop2。sqoop1的最新版本是1.4.

2014-12-05 13:37:52 5536

转载 Yarn在Shuffle阶段内存不足问题(error in shuffle in fetcher)

在Hadoop集群(CDH4.4, Mv2即Yarn框架)使用过程中,发现处理大数据集时程序报出如下错误:13/12/02 20:02:06 INFO mapreduce.Job: map 100% reduce 2%13/12/02 20:02:18 INFO mapreduce.Job: Task Id : attempt_1385983958793_0001_r_000000_1,

2014-11-20 09:28:05 1587

转载 【Hadoop】mahout推荐hadoop偏好矩阵-PreparePreferenceMatrixJob

mahout推荐包括两部分,一部分是单机版的推荐,主要是以org.apache.mahout.cf.taste.*包下面;另一种则是hadoop版本的推荐主要是以org.apache.mahout.cf.taste.hadoop.*包下面。下面我们针对hadoop版本进行分析。在org.apache.mahout.cf.taste.hadoop.item包下面的RecommenderJob开始。

2014-10-20 15:02:23 632

转载 Eclipse中如何清除EGit记住的GitHub用户名和密码

现在公司的项目都是使用GitHub存储,然后再Eclipse中安装Git插件,pull或push代码的。第一次pull项目的时候eclipse记住了填写的github账号和密码,一直都很正常。昨天登录github的时候忘记密码了,于是选择重置并修改后!代码就同步不了了,也不能pull和push,一直报没有认证。我意识到eclipse记住的还是以前的密码。但找了半天也没找到,上网查也没人提过这个问题

2013-12-13 11:30:55 673

转载 map和reduce 个数的设定 (Hive优化)经典

一、    控制hive任务中的map数: 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2.    举例: a)    假设input目录下有

2013-11-18 09:25:00 531

转载 java 多线程 CountDownLatch用法

CountDownLatch,一个同步辅助类,在完成一组正在其他线程中执行的操作之前,它允许一个或多个线程一直等待。主要方法 public CountDownLatch(int count); public void countDown(); public void await() throws InterruptedException 构造方法参数指定了计数的次数

2013-08-01 08:58:09 486

原创 RCFile SequenceFile and Avro comparison Test

Hive原始文件1421M,按snappy压缩之后结果:     select count(*) from tableselect count(*) from (select key from table where key='') a; file typet

2013-05-17 10:19:03 1522

原创 搭建Hive的图形界面

添加war包到hive的lib目录:下载添加到/usr/lib/hive/lib/hive-hwi-0.9.0-cdh4.1.0.war添加配置到hive-site.xml  hive.hwi.listen.host  0.0.0.0  This is the host address the Hive Web Interface wil

2013-05-17 10:17:51 1796

原创 sqoop导数据

安装:tar –xzvf sqoop-1.4.1-cdh4.1.0.tar.gzadd sqljdbc4.jar into /usr/lib/sqoop/lib设置PATHexport SQOOP_HOME=/usr/lib/sqoopexport ANT_LIB=/home/op1/jasonliao/apache-ant-1.9.0/libexport PA

2013-05-17 10:16:49 1266

原创 storm安装部署

1.因为storm依赖的组件很多,建议先安装好yum.  我使用的yum源是:  [company]name=companybaseurl=http://yum.company.com/rhel_5.4_repo/enabled=1gpgcheck=0gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-redhat-release2

2013-03-14 14:31:09 862

原创 Hive复杂结构表示

Array Array:[1,2,3]     文件格式:  1,2,3Array: ["a","b","c"]   文件格式: a,b,c MapMap:{"k1":1,"k2":2,"k3",3}  文件格式:  k1:1,k2:2,k3:3Map:{"k1":"value1","k2":"value2","k3","value3"}   文件格式:

2013-03-14 14:27:34 712

原创 hive udf和UDAF应用

hive udf&udaf说明使用说明:也可参见http://www.linuxidc.com/Linux/2012-01/52689.htm主要步骤有:1.添加jar到hive session  中如果在hive-site.xml中定义了hive.aux.jars.path属性的值,则可以省略这个步骤>

2013-03-14 14:26:52 890

原创 压缩hive输出

hive> set hive.exec.compress.output=true; 启用压缩hive> set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; 指定格式 查询INSERT OVERWRITE DIRECTORY '/bip/test' SELECT * FROM ik_

2013-03-14 14:26:19 1052

转载 分布式数据库 HBase

HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bi

2013-03-14 14:19:51 550

转载 Hbase集群间数据迁移方法总结 .

呵呵,今天花了一天的时间查资料做测试,略微的总结了一下hbase数据迁移的方法。一、需要在hbase集群停掉的情况下迁移 步骤:(1)执行hadoop distcp -f filelist "hdfs://new cluster ip:9000/hbasetest" (2)在new cluster执行./hbase org.jruby.Main add_tab

2013-03-13 11:19:58 731

原创 hadoop部署异常

异常:java.io.IOException: File /home/pplive/data/hadoop/tmp/mapred/system/jobtracker.info could only be replicated to 0 nodes, instead of 1        at org.apache.hadoop.hdfs.server.namenode.FSNamesys

2013-03-12 17:19:16 636

转载 hbase的replication使用

hbase-0.90.0的一个重要改进是引入了replication机制,使它的数据完整性得到了进一步的保障。虽然这一功能还不太完善,但是今后必然会变得更加重要。hbase的replication机制很像mysql statement-based replication。它是通过WALEdit和hlog来实现的。当请求发送给master cluster时,hlog日志放入hdfs的同时进入

2013-03-12 11:04:07 746

转载 Hadoop0.23.0初探2---HDFS Federation部署

Hadoop的目录文件结构:.|-- LICENSE.txt|-- NOTICE.txt|-- README.txt|-- bin|-- conf|-- etc|-- export_hadoop.sh|-- hadoop-0.23.0-gridmix.jar|-- hadoop-0.23.0-streaming.jar|-- hadoop-mapredu

2013-03-06 14:39:31 553

转载 Hadoop0.23.0初探1---前因后果

最近Hadoop社区最火热的事情莫过于Hortonworks公布了Hadoop最新版本(0.23.0),它标志着Hadoop新时代的到来。本文作为系列文章的第一篇,将结合Hadoop-0.20.*的特点,以及Hadoop核心理念,分析Hadoop新版本的特征。1、Hadoop 0.20.*的局限性HDFS单NameNode的不足     1)扩展性问题。可以随着数据量进行水平扩

2013-03-06 14:32:12 514

转载 HBase性能调优

因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer

2013-03-06 13:35:20 477

转载 线程的状态转换图

线程在一定条件下,状态会发生变化。线程变化的状态转换图如下:  1、新建状态(New):新创建了一个线程对象。  2、就绪状态(Runnable):线程对象创建后,其他线程调用了该对象的start()方法。该状态的线程位于可运行线程池中,变得可运行,等待获取CPU的使用权。  3、运行状态(Running):就绪状态的线程获取了CPU,执行程序代码。  4、阻塞状态(Blocked

2013-03-04 15:55:13 322

转载 对HBase中Bloomfilter类型的设置及使用的理解

1.Bloomfilter的原理? 可参考 http://hi.baidu.com/yizhizaitaobi/blog/item/cc1290a0a0cd69974610646f.html 2.Bloomfilter在HBase中的作用? HBase利用Bloomfilter来提高随机读(Get)的性能,对于顺序读(Scan)而言,设置Bloomfilter是没有作用的(0.

2013-03-04 15:34:47 501

转载 中小规模Hadoop集群优化

人人网的数据平台分为事前和事后两部分。事前数据分析是在开发阶段就有系统规划的统计点,事后数据分析恰恰相反,一般统计的是现有业务的历史。这两种方法是互补的,事先埋点的粒度更细,实时性更强,事后统计的适用范围更广,调整更灵活。我们的事后数据分析用Hadoop搭建。这个集群从上个月开始遇到一系列性能问题,在逐一解决的过程中,积累了以下的优化经验。1. 网络带宽人人网的Hadoop集群现在有5

2013-03-01 10:58:01 435

原创 hbase性能评估

hbase org.apache.hadoop.hbase.PerformanceEvaluation  -hUsage: java org.apache.hadoop.hbase.PerformanceEvaluation \  [--miniCluster] [--nomapred] [--rows=ROWS] Options: miniCluster     Run the

2013-02-28 15:43:59 696

原创 hbase和hive整合

一 、简介Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 Hive与HBase的整合功能的实现是利用两者本身对外的

2013-02-27 11:32:56 523

原创 linux IO命令

iostat -x 1 10000查看实时的IO流量iostat --helpUsage: iostat [ options... ] [ [ ] ]Options are:[ -c | -d ] [ -k | -m ] [ -t ] [ -V ] [ -x ] [ -n ] [ -h ] [ -N ][ [ ... ] | ALL ] [ -p [ | ALL ]

2013-02-27 10:14:45 719

转载 java concurrent 探秘

我们都知道,在JDK1.5之前,Java中要进行业务并发时,通常需要有程序员独立完成代码实现,当然也有一些开源的框架提供了这些功能,但是这些依然没有JDK自带的功能使用起来方便。而当针对高质量Java多线程并发程序设计时,为防止死蹦等现象的出现,比如使用java之前的wait()、notify()和synchronized等,每每需要考虑性能、死锁、公平性、资源管理以及如何避免线程安全性方面带来的

2013-02-21 16:17:00 306

转载 hadoop对于压缩文件的支持及算法优缺点

【IT168 技术】hadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的,hadoop能够自动为我们 将压缩的文件解压,而不用我们去关心。  如果我们压缩的文件有相应压缩格式的扩展名(比如lzo,gz,bzip2等),hadoop就会根据扩展名去选择解码器解压。压缩格式工具算法文件扩展名多文件可分割性DEFLATE

2013-02-20 18:51:58 443

转载 Brewer’s CAP Theorem

Brewer(CAP)定理那么到底Brewer的定理是什么,为何它足以和1976年Manchester的punk演出媲美?Brewer 在2000年的演讲是基于他在UC Berkley的理论工作以及主持Inktomi(期间)的观察,是通过数年前Brewer和其他人,在如何构建高伸缩性系统(highly scalable system)时所做出的各种折衷方案的讨论(例如:SOSP(Sympo

2013-02-20 14:27:58 1141

转载 SQOOP的安装配置

SQOOP是一款开源的工具,主要用于在HADOOP与传统的数据库间进行数据的传递,下面从SQOOP用户手册上摘录一段描述Sqoop is a tool designed to transfer data between Hadoop andrelational databases. You can use Sqoop to import data from arelational databa

2013-02-18 17:33:26 444

转载 hadoop HDFS详解

一、HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。1.2、元数据节点(Namenode)和数据节点(

2013-02-18 15:19:26 494

原创 Flume 部署规划

Flume 是一套分布式的日志收集系统,支持各种数据输出,并支持将数据合并导入hadoop。 Flume 安装需要一定的软件环境:1.jdk 1.6+2.hadoop 安装包3.flume 软件包 jdk 可以从网上下载,解压后在 /etc/profile中增加java_home的环境变量即可hadoop 安装包可以到 https://ccp.cloudera.

2013-02-16 11:11:24 664

hbase权威指南

hbase权威指南,讲得比较详细,可以用来仔细读读

2013-02-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除