cristim33-优快云博客

原创 hadoop 2.5.0 capacitySchedule Application Queues 参数解析

web UI中队列各项参数含义：Queue State:RUNNING Used Capacity:0.0% 已使用资源占队列配置值的百分比Absolute Used Capacity:0.0% 已使用资源占集群的百分比Absolute Capacity:90.0% 集群最小可使用容量Absolute Max Capacity:

2014-12-18 17:31:55 3669

原创 hbase运维笔记

（hbase0.98.7 + hadoop2.5.0）hbase启动后，master马上挂掉，错误很诡异：2014-12-10 15:45:59,239 DEBUG [master:XX-249-83:60000] zookeeper.ZKAssign: master:60000-0x34a32d840170020, quorum=XX-249-75:218

2014-12-10 16:34:26 5821

原创 linux ssh 无密码登陆笔记

首先要整明白ssh的相关原理和配置文件准备。第一，配置文件目录：/etc/ssh/,（debian系统） ssh_config文件需要注意的有,是否需要代理转发（# ForwardAgent yes），是否更改了默认的端口22（# Port 22） sshd_config是ssh服务配置文件，更改后要重启ssh服务。需要注意的有，是否允许root用户无密

2014-12-02 17:23:26 1041

原创 mahout笔记：基于用户的推荐例子

数据准备：1,10,1.01,11,2.01,12,5.01,13,5.01,14,5.01,15,4.01,16,5.01,17,1.01,18,5.02,10,1.02,11,2.02,15,5.02,16,4.52,17,1.02,18,5.03,11,2.53,12,4.53,13,4.03,14,3.03,15,3.53,16,4.53,

2014-10-15 17:24:01 1145

原创 storm使用中遇到的问题

1、异常：Caused by: java.util.jar.JarException:file:/home/data/storm/supervisor/stormdist/testtest22-38-1408443230/stormjar.jarhas unsigned entries - 。。。 at javax.crypto.JarVerifier.verifySingleJar(Jar

2014-09-07 12:28:11 7705

原创 flume+kafka+storm调研

1、zookeeper集群，storm和kafka可以共用，最好独立机器安装。2、在web容器所在所有机器安装flume，分别启动agent，监听特定目录，发送消息到kafka。3、配置多个broker的kafka集群，在每台机器分别启动kafkaserver,接收来自flumekafkasink的数据，写入kafka集群的分区。4、在storm集群某一节点启动nimbus，在其他节点

2014-07-10 16:14:45 1299

原创 storm笔记（一）

环境配置：在每个节点上操作：1、下载，解压，配置环境变量。2、依赖安装3、修改storm.yaml 启动zookeeper。启动nimbus。启动若干supervisor。启动ui。序列化：0.6版本以后变化大。使用kyro序列化。处理的字段类型是动态的。事务的概念：每个流要有唯一id，第一次执行成功，再一次执行会跳过。保证只执行一次

2014-07-10 15:59:25 710

原创 kafka笔记（一）

每个分区是一段提交日志，有偏移量。队列里的topic可配置过期时间，consumer控制读取的位置offset，consumer之间互不影响。分区是分布式的，所有请求由leader处理，如果配置了副本数，则有对应的follwer。 consumer group：实现了消息队列和广播。topic会发到每个consumer group的其中一个consumer实例。相对于传统pub

2014-07-10 15:54:14 907

原创 flume笔记（一）

从不同的源收集，聚合日志，传输到存储系统。 source用来读取数据，可以是各种客户端，或者来自另一个agent，存入channel，sink来消费，整个过程是异步的。 event只有在被成功存入下一个agent的channel里（多个agent）或最终目的地（单个agent）时才删除，确保可靠性。 Channel有文件和内存两种。多个实例要指

2014-07-10 15:46:45 2151

原创用一个MapReduce job实现去重，多目录输出功能

总结之前工作中遇到的一个问题。背景：运维用scribe从apache服务器推送过来的日志有重复记录，所以这边的ETL处理要去重，还有个需求是要按业务类型多目录输出，方便挂分区，后面的使用。这两个需求单独处理都没有问题，但要在一个mapreduce里完成，需要一点技巧。1、map输入数据，经过一系列处理，输出时： if(ttype.equals("other"))

2014-07-10 13:40:03 1512

原创 phoenix 一些东西（1）

如果集群不允许Eclipse远程连接，则jdbc的测试需要打包后丢到集群上：java-Djava.ext.dirs=/home/hbase/hbase-0.94.14/lib/:/home/hbase/hbase-0.94.14/ -jar PhoenixCRUD.jar Phoenix的创建表，索引，查询基本没什么可说，测试了下，百万级数据的聚合查询，建索引比不建索引查询时间

2014-05-30 15:45:27 1057

原创 oozie 4.0.1版本功能

oozie 1.x 运行mapreduce，pig任务的工作流job

2014-05-27 17:36:04 1222

原创 phoenix 一点了解

hbase 0.94版本支持按一个cf一个column的sum聚合从hbase0.96开始取消了对应类，可以配合phoenix使用实现相应功能。 phoenix2,3支持hbase0.942.1版本以后支持可变数据的索引。 1、使用shell命令行操作sql2、使用java api (jdbc操作，唯一不同点是协议：jdbc:phoenix)3、批量加载进pho

2014-05-23 17:07:46 1346

原创 hive 元数据的一点问题

hive升级到了0.9，发现以前用的查看建表语句的脚本不能用了，研究了下，有个元数据表在0.7版本叫COLUMNS，目前用的0.9版本变成COLUMN_V2,并且表结构也变了，之前查询字段体的语句这样：SELECT concat(' ',C.COLUMN_NAME,' ',C.TYPE_NAME,(case when C.COMMENT is not null then conca

2014-05-23 17:04:17 790

原创 HDFS Federation(HDFS 联邦)（hadoop2.3）

最早接触Federation这个词还是第一家公司用的DB2联邦数据库。第一代hadoop HDFS：结构上由一个namenode和众多datanode组成。功能上划分为namespace和block storage service 两部分。所谓的HDFS Federation就是有多个namenode（或者说namespace）。如图：

2014-04-11 18:15:02 1269

原创基本排序算法复习

排序算法：1、冒泡排序双层循环，内层循环一圈得出一个最小（最大）值。循环和交换复杂度均为n*n。for(int i=0;i{ for(int j=i+1;j { int temp; if(src[i]>src[j]) { temp=src[j]; sr

2014-03-20 12:52:45 651

原创 BusinessOBject analysis + sqlserver analysis service 开发文档

一些概念：OLAP核心——维、度量、聚合多维视图，数据立方(Data Cube)目标——多维分析特点灵活、动态、快速多角度、多层次的视角 BI = DataWarehouse + OLAP + Data Mining Bo Analysis OLAP版（office版） ---报表层SSAS （cognos，es

2013-08-28 16:56:03 1792 2

翻译 MapReduce Design Patterns（chapter 7 （part 2））（十四）

External Source InputPattern Description这种模式不从hdfs加载数据，而是从hadoop以外系统，例如RDB或web service加载。Intent想要从非MapReduce框架的系统并行加载数据。Motivation使用MapReduce分析数据通常的做法是把数据先存储到存储平台上，例如hdfs，然后分析。用这中模式，你可以使用M

2013-01-22 09:04:42 1318

翻译 MapReduce Design Patterns（chapter 7 （part 1））（十三）

CHAPTER 7.Input and Output Patterns本章关注一个最经常忽略的问题，来改进MapReduce的value：自定义输入和输出。我们并不会总使用Mapreduce本身的方式加载或存储数据。有时，可以跳过在hdfs存储数据这项耗时的阶段，仅存储一些数据，不是全部的，或直接在MapReduce结束后输送给后面的处理。有时，基本的Hadoop规范，文件块和输入分割不能

2013-01-16 16:52:54 1572

翻译 MapReduce Design Patterns（chapter 6 （part 2））（十二）

Chain Folding这是对job 链的一种优化。基本上是一种大体规则：每条记录都会提交给多个mapper，或者给reducer然后给mapper。这种综合处理方法会节省很多读文件和传输数据的时间。多个job的结构通常这样处理是可行的，因为map阶段是完全无共享的：看起来每条记录是单独的，数据的组织或是否分组是没有关系的。当创建大的MapReduce链时，合并这个链使多个map阶段合并会带

2013-01-14 20:59:56 1290

翻译 MapReduce Design Patterns（chapter 6 （part 1））（十一）

Chapter 6. Metapatterns这种模式不是解决某个问题的，而是处理模式的关系的。可以理解为“模式的模式”。首先讨论的是job链，把几个模式联合起来解决复杂的，有多个阶段要处理的问题。第二个是job合并，用相同的MapReduce job执行多个分析的优化，达到一箭多雕的目的。Job chaining理解job链接和对job链接的操作计划非常重要。很多人发现用单独一个

2013-01-11 11:09:05 1588

翻译 MapReduce Design Patterns（chapter 5 （part 2））（十）

Replicated JoinPattern Description复制join是一种特殊的join，用于一个大数据和许多小数据集map端执行的情况。Intent这种模式能够消除reduce阶段的shuffle。Motivation复制join非常有用，除了一个大数据集外，对其它要join的数据集有严格的大小限制。除了这个大数据集外，其它数据在map任务的setup阶段都要

2013-01-10 11:58:35 1615

翻译 MapReduce Design Patterns（chapter 5 （part 1））（九）

Chapter 5. Join Patterns把数据保存成一个巨大的数据集不是很常见。例如，用户信息数据频繁更新，所以要保存到关系数据库中。于此同时，web日志以恒定的数据流量增加，直接写到HDFS。这些日志的日常分析过的数据保存在hdfs的某个地方，财务数据存储在加密的仓库中。还有很多例子。。。（原文are stored someone where in HDFS貌似应改为 are

2013-01-09 13:36:03 1861

翻译 MapReduce Design Patterns（chapter 4 （part 2））（八）

BinningPattern Description分箱模式，跟前面的类似，分类记录且不考虑记录的顺序。Intent归档数据集中的每条记录到一个或多个类别。Motivation分箱和分区很相似，可以用来解决相同的问题。不同点是如何用MapReduce框架建立箱或分区。有些情况下，一种比另一种好用。分箱是在map阶段分割数据而不是在partitioner阶段。主要的优势是

2013-01-08 14:42:23 1716

翻译 MapReduce Design Patterns（chapter 4 （part 1））（七）

Chapter 4. Data Organization Patterns与前面章节的过滤器相比，本章是关于数据重组。个别记录的价值通常靠分区，分片，排序成倍增加。特别是在分布式系统中，因为这能提高性能。在很多组织结构方面，Hadoop和其它MapReduce使用案例仅仅是大数据分析平台上一片数据的处理。数据通常被转换成跟其它系统有良好接口的形式，同样，数据也可能从原来状态转成一种新

2013-01-07 12:29:09 2515

翻译 MapReduce Design Patterns（chapter 3 （part 2））（六）

Top TenPattern DescriptionTop ten模式跟前面的有很大的不同，跟输入数据大小无关，最终得到的记录数量是确定的。而在通用filtering中，输出的规模取决于输入数据。Intent根据数据集的排名，获取相对较小的前K条记录，不管数据量多大。Motivation在数据分析中，找出离群值是很重要的工作，因为这些记录是典型的最引人关注的独特的数据片。这

2013-01-05 16:28:27 1868

翻译 MapReduce Design Patterns（chapter 3 （part 1））（五）

Chapter 3. Filtering Patterns本章的模式有一个共同点：不会改变原来的记录。这种模式是找到一个数据的子集，或者更小，例如取前十条,或者很大，例如结果去重。这种过滤器模式跟前面章节的不同是，从更小的粒度认识数据，例如特殊用户生成的记录，或文本中用得最多的前10个动词。简单的说，过滤器允许你更清楚的看清数据，像在显微镜下一样。也可以认为是搜索的一种形式。如果你对找出所有有

2013-01-04 18:00:33 2277

翻译 MapReduce Design Patterns（chapter 2 （part 3））（四）

Inverted Index SummarizationsPattern Description反向索引模式在MapReduce分析中经常作为一个例子。我们将会讨论我们要创建的term跟标识符之间映射的一般情况。 Intent根据数据集生成索引，用于快速搜索或数据的富集能力。Motivation根据关键词索引大数据非常方便，搜索能追踪term找到包含指定值的记录。创建索

2013-01-01 11:18:24 2313

翻译 MapReduce Design Patterns（chapter 2 （part 2））（三）

Median and standard deviation中值和标准差的计算比前面的例子复杂一点。因为这种运算是非关联的，它们不是那么容易的能从combiner中获益。中值是将数据集一分为两等份的数值类型，一份比中值大，一部分比中值小。这需要数据集按顺序完成清洗。数据必须是排序的，但存在一定障碍，因为MapReduce不会根据values排序。方差告诉我们数据跟平均值之间的差异程度。

2012-12-31 15:14:47 2286

翻译 MapReduce Design Patterns（chapter 2 （part 1））（二）

CHAPTER 2 .Summarization Patterns随着每天都有更多的数据加载进系统，数据量变得很庞大。这一章专注于对你的数据顶层的，概括性意见的设计模式，从而使你能扩展思路，但可能对局部数据是不适用的。概括性的分析都是关于对相似数据的分组和执行统计运算，创建索引，或仅仅为了计数。通过分组数据集计算聚合排序是一种快速获取结果的好方法。例如,你可能想按某种规则计算出所存的

2012-12-29 19:22:55 2826

翻译 MapReduce Design Patterns（chapter 1）（一）

翻译的是这本书：Chapter 1.Design Patterns and MapReduceMapReduce 是一种运行于成百上千台机器上的处理数据的框架，目前被google，Hadoop等多家公司或社区广泛使用。这种计算框架是非常强大，但它没有提供一个处理所谓“big data”的通用，普遍的情形，所以它能很好的解决一些问题，在处理某些问题上也存在挑战。这本书教给你在什么问题

2012-12-27 15:21:12 4632

原创 oozie 工作流调度引擎总结(一)

oozie是服务于hadoop生态系统的工作流调度工具，job运行平台是区别于其他调度工具的最大的不同。但其实现的思路跟一般调度工具几乎完全相同。首先是作为调度系统两大核心：依赖和触发。依赖可以是条件依赖，比如，资源依赖，依赖于某些数据文件的存在，也可以是任务依赖，比如依赖于另一个job的完成。在oozie里，每一个job对应一个action节点，这个节点可以是java，hadoop FS，m

2012-12-02 16:18:14 7175

原创序列化总结

---主要探讨java，hadoop，redis等的序列化问题当两个进程在进行远程通信时，彼此可以发送各种类型的数据。无论是何种类型的数据，都会以二进制序列的形式在网络上传送。发送方需要把这个对象转换为字节序列，才能在网络上传送；接收方则需要把字节序列再恢复为对象。把对象转换为字节序列的过程称为对象的序列化序列化序列化序列化。

2012-11-30 11:19:32 1446

原创 redis value为对象的排序、分页的一种实现

-------基于HBase存储引擎并实现了排序、分页的Redis缓存策略思路：1、当前系统缓存json，根据key存取value，key和value都是String类型，直接返回前端。2、考虑支持分页，想到了缓存排好序的ResultSet，每一次前端请求，将所有数据缓存到redis，根据filter返回某页的数据，此部分数据是封装好的json。

2012-11-29 19:41:02 4742

原创 redis与spring的完全集成

下载spring-data-redis，gav如下： org.springframework.data spring-data-redis 1.0.1.RELEASE org.slf4j slf4j-log4j12 org.slf4j jcl

2012-11-22 17:10:38 5342

原创 redis jedis使用总结

redis是一个key-value存储系统，目前提供几种数据类型：string，list，set及zset(sorted set)，hash。周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件，并且在此基础上实现了master-slave(主从)同步。安装及各数据类型及cli命令的使用可参考官网。 redis是一个可以替代memcached的内存库，

2012-11-22 16:45:18 2707

原创 memcached总结和与spring的集成

Memcached是一个高性能的分布式内存对象缓存系统，用于动态Web应用以减轻硬盘数据库的负载，基于一个存储键/值对的hashmap，守护进程用c写的，客户端可用各种语言实现。特点有以下几个： 1.暂无认证以及安全管制，也没有冗余备份机制，考虑到时内存数据库，也就无所谓了。 2.Value大小 1.4.2以后可以到128M。

2012-11-19 14:24:51 1043

原创 hbase 表的重命名

hbase没有提供重命名表的API，无意中发现0.90.4版本有类似的jruby脚本，无聊之下搞了个java重命名表的类：package com.cuirong.hbase.rtc;import java.io.DataOutputStream;import java.io.IOException;import java.security.Permission;impo

2012-09-28 18:20:47 2121

原创 hbase shell命令扩展

也许你还不清楚我在说什么，看一下下面的截图你就明白了：好吧，如果您感兴趣，可以继续看下去了。hbase是以字节数组的形式存储数据的，当你直接用API或通过hbase 自带的shell端去查询数据时，实际显示的是二进制数据的byteString的形式，就像这样：\xE5\x94\xAE\xE5\x90\x8E，当然，这肯定不是你想看到的结果。不过没办法，因为ro

2012-09-17 11:30:25 3875 2

原创 hadoop权威指南第三版发布说明

（此文摘自http://hadoopbook.com）hadoop权威指南第三版发行说明：第三版会在2012年5月发行。你现在可以预定一份电子版，或购买“Early Release”版，买了这版送正式版。（这话对国人基本没用，呵呵！）下面大概说说这本书的一些改动。第三版添加了哪些新东西？

2012-03-09 16:49:00 3251

java多线程

空空如也