wangqiaoshi-优快云博客

转载 nohup 命令

nohup 命令　　用途：LINUX命令用法，不挂断地运行命令。　　语法：nohup Command [ Arg ... ] [　& ]　　描述：nohup 命令运行由 Command 参数和任何相关的 arg 参数指定的命令，忽略所有挂断（SIGHUP）信号。在注销后使用 nohup 命令运行后台中的程序。要运行后台中的 nohup 命令，添加

2014-06-25 15:26:02 434

原创 flume MemoryChannel 源码解析

1.先分析三个LinkedBlockingDeque类型的takeList,putList,queueputList: 存放的是来自source生产的数据,通过调用doPut(Event event)方法,它是如何到queue的,在每次执行doCommit的时候，会循环放到queue，其实doCommit()放法只做了putlist交给queue, synchronized(q

2014-04-22 13:49:58 1015

原创 hive 整合 hbase

因为hbase不能进行复杂的查询，两表的join

2014-04-09 19:48:05 217

原创 hdfs DFSClient 源码分析2

这篇文章其实不是专门来讲DFSClient源码的,就光这个类就近4000行代码，不用说牵扯到其他类的代码，围绕着以下错误展开对DFSClient分析由于最近flume1.4.0报04 Apr 2014 07:11:53,111 WARN [ResponseProcessor for block blk_326610323152553165_1164644] (org.apache.had

2014-04-05 14:20:38 996

转载在大并发写时，HBase的HDFS DFSClient端报SocketTimeoutException的问题分析和解决

异常日志：2012-03-02 12:11:21,983 WARN org.apache.hadoop.hdfs.DFSClient: DFSOutputStream ResponseProcessor exception for block blk_1439491087566691588_6207java.net.SocketTimeoutException: 69000 millis

2014-04-03 23:23:08 1092

HDFS读取文件的重要概念HDFS一个文件由多个block构成。HDFS在进行block读写的时候是以packet(默认每个packet为64K)为单位进行的。每一个packet由若干个chunk（默认512Byte）组成。Chunk是进行数据校验的基本单位，对每一个chunk生成一个校验和(默认4Byte)并将校验和进行存储。在读取一个block的时候，数据传输的基本单位是packet，每个pa

2014-04-03 22:52:31 521

原创 hadoop dfs client写文件源码分析

HdfsConfiguration会默认加载hdfs-default.xml,hdfs-site.xml文件public class HdfsConfiguration extends Configuration { static { addDeprecatedKeys(); // adds the default resources Configuration.addDef

2014-04-03 21:32:24 160

转载 hbase介绍

history started by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop

2014-03-30 23:13:16 438

原创 flume 问题分析与处理

问题一：org.apache.flume.EventDeliveryException:Failed to send events atorg.apache.flume.sink.AbstractRpcSink.process(AbstractRpcSink.java:382) atorg.apache.flume.sink.DefaultSinkProcess

2014-03-30 11:50:18 4194

转载 Hadoop 2.0中用户安全伪装/模仿机制实现原理

from http://dongxicheng.org/mapreduce-nextgen/hadoop-secure-impersonation/本文将从用户伪装（impersonate，翻译成“模仿”也许更好些）角度介绍Hadoop安全机制，用户伪装机制使得Hadoop支持类似于linux “sudo”的功能，即用户A以用户B的身份执行功能。该机制属于Hadoop安全机制的一部分，因此适用

2014-03-26 22:21:17 1182

转载 samba 映射

from http://blog.youkuaiyun.com/zjw11763/article/details/8864191net use * /deleteC:\Documents and Settings\sh-zhongjw>net use会记录新的网络连接。状态本地远程网络------

2014-03-23 16:11:52 413

转载 daemontools 的安装

在使用memcached时候，怕因为一些不可预知的因素导致memcached进程死掉，而又不能及时的发现重启，可以通过daemontools来管理memcached的启动，当memcached死掉后系统会自动在5秒内重memcached;1、安装http://cr.yp.to/daemontools/daemontools-0.76.tar.gz下载tar zxf daem

2014-03-21 16:08:35 515

转载 storm 一致性事务

from http://blog.linezing.com/?p=1976第五章一致性事务Storm是一个分布式的流处理系统，利用anchor和ack机制保证所有tuple都被成功处理。如果tuple出错，则可以被重传，但是如何保证出错的tuple只被处理一次呢？Storm提供了一套事务性组件Transaction Topology，用来解决这个问题。Transa

2014-03-20 11:18:30 330

原创 storm整合flume

flume-ng-configure,flume-ng-core,flume-ng-sdk

2014-03-18 23:51:15 129

转载 storm 进程自动关闭 fail-fast 使用daemontools 进行管理

Linux系统上运行服务（或daemons）的典型方法是使用initscripts，它是壳脚本的优化版，能够开始和停止服务。虽然这种方法对大部分来说都是适用的，但是高效的有效性却正在丢失。如果服务自己停止了，它就会无效了。另外一种运行服务的方法是使用D.J.Bernstein的Daemontools软件包。它运行一个叫做监督的Daemon,它能够监督它能启动的所有服务。如果一个服务停止了，

2014-03-18 20:21:55 1061

原创 Storm(报错)Found multiple defaults.yaml resources

运行storm-kafka应用程序的的时候报了这个错这个想了下，肿么会有多个呢，后面觉得应该是在应用的jar包里面也把storm的defaultsyarm打进去了。找了下只看到[html] view plaincopyspan style="font-size:14px;"> dependency>

2014-03-16 14:57:02 707

转载 hive优化之------控制hive任务中的map数和reduce数

from http://superlxw1234.iteye.com/blog/1582880一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;

2014-03-12 21:37:06 569

转载 Java线程池使用说明

转自：http://blog.youkuaiyun.com/sd0902/article/details/8395677一简介线程的使用在java中占有极其重要的地位，在jdk1.4极其之前的jdk版本中，关于线程池的使用是极其简陋的。在jdk1.5之后这一情况有了很大的改观。Jdk1.5之后加入了java.util.concurrent包，这个包中主要介绍java中线程以及线程池的使用。为我

2014-03-11 21:46:30 311

转载 Java多线程笔记6-ThreadPoolExecutor/ExecutorService

Executor框架是指java 5中引入的一系列并发库中与executor相关的一些功能类，其中包括线程池，Executor，Executors，ExecutorService，CompletionService，Future，Callable等。他们的关系为：并发编程的一种编程方式是把任务拆分为一些列的小任务，即Runnable，然后在提交给一个Executor执

2014-03-11 19:33:54 728

转载 Storm常见模式——求TOP N

from http://www.cnblogs.com/panfeng412/archive/2012/06/16/storm-common-patterns-of-streaming-top-n.htmlStorm的另一种常见模式是对流式数据进行所谓“streaming top N”的计算，它的特点是持续的在内存中按照某个统计指标（如出现次数）计算TOP N，然后每隔一定时间间隔输出实时计算

2014-03-09 15:02:38 433

原创 storm

storm 有Nimbus,Supervisor,Nimbus有点类似于hadoop的JobTracker,supervisor类似于tasktracker他们之间交互是通过zookeeper其实storm设计类似于hadoop,hadoop的job对应的是Topology通过官网方式，可能会遇到识别不了主机名的错误，通过修改主机名就不报错了export HOSTNAME=

2014-03-08 14:10:24 406

转载 Hive读取Flume正在写入的HDFS临时文件所遇到的问题

from http://www.sqlparty.com/hive%E8%AF%BB%E5%8F%96flume%E6%AD%A3%E5%9C%A8%E5%86%99%E5%85%A5%E7%9A%84hdfs%E4%B8%B4%E6%97%B6%E6%96%87%E4%BB%B6%E6%89%80%E9%81%87%E5%88%B0%E7%9A%84%E9%97%AE%E9%A2%98/

2014-03-07 12:42:24 1791 1

转载 hadoop 4.1.0 cdh4读文件源码分析

上篇文章分析了hadoop写文件的流程，既然明白了文件是怎么写入的，再来理解读就顺畅一些了。同样的，本文主要探讨客户端的实现，同样的，我依然推荐读一下http://www.cnblogs.com/duguguiyu/archive/2009/02/22/1396034.html，读文件的大致流程如下：不论是文件读取，还是文件的写入，主控服务器扮演的都是中介的角色。客户

2014-03-06 23:53:10 394

转载 Hadoop 2.1.0-cdh4写文件源码分析

from http://blog.youkuaiyun.com/mrtitan/article/details/8581942上篇文章分析了hadoop写文件的流程，既然明白了文件是怎么写入的，再来理解读就顺畅一些了。同样的，本文主要探讨客户端的实现，同样的，我依然推荐读一下http://www.cnblogs.com/duguguiyu/archive/2009/02/22/139

2014-03-06 23:52:06 404

原创 hadoop test题

http://blog.youkuaiyun.com/jiangheng0535/article/details/16800415

2014-03-06 23:49:29 299

原创 flume ExecSource 源码分析

public class ExecSource extends AbstractSource implements EventDrivenSource,Configurable关键静态内部类private static class ExecRunnable implements Runnablepublic ExecRunnable(String command, ChannelProce

2014-03-05 21:13:29 574

转载滑动窗口在storm中的实现

from http://blog.youkuaiyun.com/yangbutao/article/details/17851853滑动窗口在监控和统计应用的场景比较广泛，比如每隔一段时间(10s)统计最近30s的请求量或者异常次数，根据请求或者异常次数采取相应措施；这里说一下滑动窗口在storm中实现的原理。参见下图：窗口大小为30s，每10s就统计一次，那么窗口一

2014-03-04 22:27:41 657

转载 logback

from http://cat0425.popo.blog.163.com/blog/static/7959643920098177232182/class="ch.qos.logback.core.ConsoleAppender">%d{HH:mm:ss} [%thread] %-5level %logger{80} - %msg%n

2014-03-03 23:40:10 591

转载 linux 杀死进程自动化

from http://blog.youkuaiyun.com/smarxx/article/details/6664219long long ago，曾有一个想法，就是完全脱离windows，使用linux生活、工作。以前迫于各种专业工具不支持linux，只能无奈的使用xp。最近工作内容是android移植+单片机开发，android就不说了，必须用linux开发。单片机也找到一些linux的工具

2014-03-02 17:42:25 557

转载 HDFS小文件问题及解决方案

from http://dongxicheng.org/mapreduce/hdfs-small-files-solution/小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先，在HDFS中，任何block，文件或者目录在内存中均以对象的形式存储，每个对象约占150byte，如果有1000 0000个小文件，每个文件占用一

2014-02-28 16:57:12 367

原创 flume 需要的hadoopjar包

hadoop-core-xxx.jarcommons-configuration-xx.jar

2014-02-28 10:11:15 956

转载云监控 Ganglia 安装步骤 (含python module)

from http://my.oschina.net/duangr/blog/181585#OSC_h1_2前言1.相关环境2.部署规划3.代码获取4.前提依赖4.1 主机环境检查(全部主机节点)4.2 dejavu4.3 rrdtool4.4 apr4.5 libexpat4.6 libpcre4.7 confuse4.8 python5.

2014-02-27 21:17:52 507

转载 hive外部表使用分区partition(实时导数据)

from http://blog.youkuaiyun.com/azhao_dn/article/details/7713017 1）创建外部表[python] view plaincopycreate external table test(username String,work string) PARTITIONED BY(year S

2014-02-27 18:16:59 354

转载 flume-ng 使用系列

from http://blog.youkuaiyun.com/wuguangxue255/article/details/11710225对变名日志的处理，对于java工程可以简单修改log4j的配置文件，增加flume配置即可对于非java程序，采取规避的方案，当然如果你足够强大可以重写编译flume代码，自定义一个source type支持，将spoolDir 类型的source加强

2014-02-27 17:56:51 907

原创 flume集群

flume-ng agent --conf /root/flume-1.4.0/conf --conf-file /root/flume-1.4.0/conf/a.conf --name a1 -Dflume.root.logger=INFO,consolecurl -X get -d '[{ "headers" :{"namenode" : "namenode.example.com"

2014-02-22 17:21:08 870

转载 hive 中转义符使用问题

在写hive查询的时候，如果遇到特殊字符需要使用一些转义符进行转义，如：hive>select split(ip,’\&’) from students;通过转义，hive能识别&，并按&进行分割。但现实中使用会有一些问题，如hive>select split(ip,’\.’) from students;该语句无法安装’.'来分割ip。经过仔细研究发现需要

2014-02-20 11:17:42 610

转载 Hadoop 权限管理

如下图，hadoop访问控制分为两级，其中ServiceLevel Authorization为系统级，用于控制是否可以访问指定的服务，例如用户/组是否可以向集群提交Job，它是最基础的访问控制，优先于文件权限和mapred队列权限验证。Access Control on Job Queues在job调度策略层之上，控制mapred队列的权限。DFSPermmision用户控制文件权限。目前版本中

2014-02-20 09:23:23 354

转载 Hadoop计算能力调度器应用和配置

property> name>mapred.capacity-scheduler.queue.hive.supports-priorityname> value>truevalue> description>description> property> property> name>mapred.capacity-scheduler.queue.h

2014-02-19 15:18:24 349

原创 hive load data出错

今天往hive导数据时发生了个错误hive> load data inpath '/user/tmp/uids.test_copy_3.txt' into table userfeature.user_strategy partition(sid='203');Loading data to table userfeature.user_strategy partition (sid=203

2014-02-18 23:15:53 1382

转载 hive 中的多列进行group by查询方法

from http://blog.youkuaiyun.com/jiedushi/article/details/7579132在工作中用hive进行数据统计的时候，遇到一个用group by 进行查询的问题，需要统计的字段为gid,sid,user,roleid,time,status,map_id,num其中time字段为时间戳形式的，统计要求为将各个字段按照每个小时的num总

2014-02-17 14:24:32 507