- 博客(247)
- 资源 (12)
- 收藏
- 关注
转载 nohup 命令
nohup 命令 用途:LINUX命令用法,不挂断地运行命令。 语法:nohup Command [ Arg ... ] [ & ] 描述:nohup 命令运行由 Command 参数和任何相关的 arg 参数指定的命令,忽略所有挂断(SIGHUP)信号。在注销后使用 nohup 命令运行后台中的程序。要运行后台中的 nohup 命令,添加
2014-06-25 15:26:02
434
原创 flume MemoryChannel 源码解析
1.先分析三个LinkedBlockingDeque类型的takeList,putList,queueputList: 存放的是来自source生产的数据,通过调用doPut(Event event)方法,它是如何到queue的,在每次执行doCommit的时候,会循环放到queue,其实doCommit()放法只做了putlist交给queue, synchronized(q
2014-04-22 13:49:58
1015
原创 hdfs DFSClient 源码分析2
这篇文章其实不是专门来讲DFSClient源码的,就光这个类就近4000行代码,不用说牵扯到其他类的代码,围绕着以下错误展开对DFSClient分析由于最近flume1.4.0报04 Apr 2014 07:11:53,111 WARN [ResponseProcessor for block blk_326610323152553165_1164644] (org.apache.had
2014-04-05 14:20:38
996
转载 在大并发写时,HBase的HDFS DFSClient端报SocketTimeoutException的问题分析和解决
异常日志:2012-03-02 12:11:21,983 WARN org.apache.hadoop.hdfs.DFSClient: DFSOutputStream ResponseProcessor exception for block blk_1439491087566691588_6207java.net.SocketTimeoutException: 69000 millis
2014-04-03 23:23:08
1092
原创 hdfs dfsclient 源码分析
HDFS读取文件的重要概念HDFS一个文件由多个block构成。HDFS在进行block读写的时候是以packet(默认每个packet为64K)为单位进行的。每一个packet由若干个chunk(默认512Byte)组成。Chunk是进行数据校验的基本单位,对每一个chunk生成一个校验和(默认4Byte)并将校验和进行存储。在读取一个block的时候,数据传输的基本单位是packet,每个pa
2014-04-03 22:52:31
521
原创 hadoop dfs client写文件 源码分析
HdfsConfiguration会默认加载hdfs-default.xml,hdfs-site.xml文件public class HdfsConfiguration extends Configuration { static { addDeprecatedKeys(); // adds the default resources Configuration.addDef
2014-04-03 21:32:24
160
转载 hbase介绍
history started by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop
2014-03-30 23:13:16
438
原创 flume 问题分析与处理
问题一:org.apache.flume.EventDeliveryException:Failed to send events atorg.apache.flume.sink.AbstractRpcSink.process(AbstractRpcSink.java:382) atorg.apache.flume.sink.DefaultSinkProcess
2014-03-30 11:50:18
4194
转载 Hadoop 2.0中用户安全伪装/模仿机制实现原理
from http://dongxicheng.org/mapreduce-nextgen/hadoop-secure-impersonation/本文将从用户伪装(impersonate,翻译成“模仿”也许更好些)角度介绍Hadoop安全机制,用户伪装机制使得Hadoop支持类似于linux “sudo”的功能,即用户A以用户B的身份执行功能。该机制属于Hadoop安全机制的一部分,因此适用
2014-03-26 22:21:17
1182
转载 samba 映射
from http://blog.youkuaiyun.com/zjw11763/article/details/8864191net use * /deleteC:\Documents and Settings\sh-zhongjw>net use会记录新的网络连接。状态 本地 远程 网络------
2014-03-23 16:11:52
413
转载 daemontools 的安装
在使用memcached时候,怕因为一些不可预知的因素导致memcached进程死掉,而又不能及时的发现重启,可以通过daemontools来管理memcached的启动,当memcached死掉后系统会自动在5秒内重memcached;1、安装http://cr.yp.to/daemontools/daemontools-0.76.tar.gz下载tar zxf daem
2014-03-21 16:08:35
515
转载 storm 一致性事务
from http://blog.linezing.com/?p=1976第五章 一致性事务Storm是一个分布式的流处理系统,利用anchor和ack机制保证所有tuple都被成功处理。如果tuple出错,则可以被重传,但是如何保证出错的tuple只被处理一次呢?Storm提供了一套事务性组件Transaction Topology,用来解决这个问题。Transa
2014-03-20 11:18:30
330
转载 storm 进程自动关闭 fail-fast 使用daemontools 进行管理
Linux系统上运行服务(或daemons)的典型方法是使用initscripts,它是壳脚本的优化版,能够开始和停止服务。虽然这种方法对大部分来说都是适用的,但是高效的有效性却正在丢失。如果服务自己停止了,它就会无效了。另外一种运行服务的方法是使用D.J.Bernstein的Daemontools软件包。它运行一个叫做监督的Daemon,它能够监督它能启动的所有服务。如果一个服务停止了,
2014-03-18 20:21:55
1061
原创 Storm(报错)Found multiple defaults.yaml resources
运行storm-kafka应用程序的的时候报了这个错这个想了下,肿么会有多个呢,后面觉得应该是在应用的jar包里面也把storm的defaultsyarm打进去了。找了下只看到[html] view plaincopyspan style="font-size:14px;"> dependency>
2014-03-16 14:57:02
707
转载 hive优化之------控制hive任务中的map数和reduce数
from http://superlxw1234.iteye.com/blog/1582880一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;
2014-03-12 21:37:06
569
转载 Java线程池使用说明
转自:http://blog.youkuaiyun.com/sd0902/article/details/8395677一简介线程的使用在java中占有极其重要的地位,在jdk1.4极其之前的jdk版本中,关于线程池的使用是极其简陋的。在jdk1.5之后这一情况有了很大的改观。Jdk1.5之后加入了java.util.concurrent包,这个包中主要介绍java中线程以及线程池的使用。为我
2014-03-11 21:46:30
311
转载 Java多线程笔记6-ThreadPoolExecutor/ExecutorService
Executor框架是指java 5中引入的一系列并发库中与executor相关的一些功能类,其中包括线程池,Executor,Executors,ExecutorService,CompletionService,Future,Callable等。他们的关系为: 并发编程的一种编程方式是把任务拆分为一些列的小任务,即Runnable,然后在提交给一个Executor执
2014-03-11 19:33:54
728
转载 Storm常见模式——求TOP N
from http://www.cnblogs.com/panfeng412/archive/2012/06/16/storm-common-patterns-of-streaming-top-n.htmlStorm的另一种常见模式是对流式数据进行所谓“streaming top N”的计算,它的特点是持续的在内存中按照某个统计指标(如出现次数)计算TOP N,然后每隔一定时间间隔输出实时计算
2014-03-09 15:02:38
433
原创 storm
storm 有Nimbus,Supervisor,Nimbus有点类似于hadoop的JobTracker,supervisor类似于tasktracker他们之间交互是通过zookeeper其实storm设计类似于hadoop,hadoop的job对应的是Topology通过官网方式,可能会遇到识别不了主机名的错误,通过修改主机名就不报错了export HOSTNAME=
2014-03-08 14:10:24
406
转载 Hive读取Flume正在写入的HDFS临时文件所遇到的问题
from http://www.sqlparty.com/hive%E8%AF%BB%E5%8F%96flume%E6%AD%A3%E5%9C%A8%E5%86%99%E5%85%A5%E7%9A%84hdfs%E4%B8%B4%E6%97%B6%E6%96%87%E4%BB%B6%E6%89%80%E9%81%87%E5%88%B0%E7%9A%84%E9%97%AE%E9%A2%98/
2014-03-07 12:42:24
1791
1
转载 hadoop 4.1.0 cdh4读文件源码分析
上篇文章分析了hadoop写文件的流程,既然明白了文件是怎么写入的,再来理解读就顺畅一些了。 同样的,本文主要探讨客户端的实现,同样的,我依然推荐读一下http://www.cnblogs.com/duguguiyu/archive/2009/02/22/1396034.html,读文件的大致流程如下:不论是文件读取,还是文件的写入,主控服务器扮演的都是中介的角色。客户
2014-03-06 23:53:10
394
转载 Hadoop 2.1.0-cdh4写文件源码分析
from http://blog.youkuaiyun.com/mrtitan/article/details/8581942上篇文章分析了hadoop写文件的流程,既然明白了文件是怎么写入的,再来理解读就顺畅一些了。 同样的,本文主要探讨客户端的实现,同样的,我依然推荐读一下http://www.cnblogs.com/duguguiyu/archive/2009/02/22/139
2014-03-06 23:52:06
404
原创 hadoop test题
http://blog.youkuaiyun.com/jiangheng0535/article/details/16800415
2014-03-06 23:49:29
299
原创 flume ExecSource 源码分析
public class ExecSource extends AbstractSource implements EventDrivenSource,Configurable关键静态内部类private static class ExecRunnable implements Runnablepublic ExecRunnable(String command, ChannelProce
2014-03-05 21:13:29
574
转载 滑动窗口在storm中的实现
from http://blog.youkuaiyun.com/yangbutao/article/details/17851853滑动窗口在监控和统计应用的场景比较广泛,比如每隔一段时间(10s)统计最近30s的请求量或者异常次数,根据请求或者异常次数采取相应措施;这里说一下滑动窗口在storm中实现的原理。参见下图:窗口大小为30s,每10s就统计一次,那么窗口一
2014-03-04 22:27:41
657
转载 logback
from http://cat0425.popo.blog.163.com/blog/static/7959643920098177232182/class="ch.qos.logback.core.ConsoleAppender">%d{HH:mm:ss} [%thread] %-5level %logger{80} - %msg%n
2014-03-03 23:40:10
591
转载 linux 杀死进程自动化
from http://blog.youkuaiyun.com/smarxx/article/details/6664219long long ago,曾有一个想法,就是完全脱离windows,使用linux生活、工作。以前迫于各种专业工具不支持linux,只能无奈的使用xp。最近工作内 容是android移植+单片机开发,android就不说了,必须用linux开发。单片机也找到一些linux的工具
2014-03-02 17:42:25
557
转载 HDFS小文件问题及解决方案
from http://dongxicheng.org/mapreduce/hdfs-small-files-solution/小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一
2014-02-28 16:57:12
367
转载 云监控 Ganglia 安装步骤 (含python module)
from http://my.oschina.net/duangr/blog/181585#OSC_h1_2前言1.相关环境2.部署规划3.代码获取4.前提依赖4.1 主机环境检查(全部主机节点)4.2 dejavu4.3 rrdtool4.4 apr4.5 libexpat4.6 libpcre4.7 confuse4.8 python5.
2014-02-27 21:17:52
507
转载 hive外部表使用分区partition(实时导数据)
from http://blog.youkuaiyun.com/azhao_dn/article/details/7713017 1)创建外部表[python] view plaincopycreate external table test(username String,work string) PARTITIONED BY(year S
2014-02-27 18:16:59
354
转载 flume-ng 使用系列
from http://blog.youkuaiyun.com/wuguangxue255/article/details/11710225对变名日志的处理,对于java工程可以简单修改log4j的配置文件,增加flume配置即可对于非java程序,采取规避的方案,当然如果你足够强大可以重写编译flume代码,自定义一个source type支持,将spoolDir 类型的source加强
2014-02-27 17:56:51
907
原创 flume集群
flume-ng agent --conf /root/flume-1.4.0/conf --conf-file /root/flume-1.4.0/conf/a.conf --name a1 -Dflume.root.logger=INFO,consolecurl -X get -d '[{ "headers" :{"namenode" : "namenode.example.com"
2014-02-22 17:21:08
870
转载 hive 中转义符使用问题
在写hive查询的时候,如果遇到特殊字符需要使用一些转义符进行转义,如:hive>select split(ip,’\&’) from students;通过转义,hive能识别&,并按&进行分割。但现实中使用会有一些问题,如hive>select split(ip,’\.’) from students;该语句无法安装’.'来分割ip。经过仔细研究发现需要
2014-02-20 11:17:42
610
转载 Hadoop 权限管理
如下图,hadoop访问控制分为两级,其中ServiceLevel Authorization为系统级,用于控制是否可以访问指定的服务,例如用户/组是否可以向集群提交Job,它是最基础的访问控制,优先于文件权限和mapred队列权限验证。Access Control on Job Queues在job调度策略层之上,控制mapred队列的权限。DFSPermmision用户控制文件权限。目前版本中
2014-02-20 09:23:23
354
转载 Hadoop计算能力调度器应用和配置
property> name>mapred.capacity-scheduler.queue.hive.supports-priorityname> value>truevalue> description>description> property> property> name>mapred.capacity-scheduler.queue.h
2014-02-19 15:18:24
349
原创 hive load data出错
今天往hive导数据时发生了个错误hive> load data inpath '/user/tmp/uids.test_copy_3.txt' into table userfeature.user_strategy partition(sid='203');Loading data to table userfeature.user_strategy partition (sid=203
2014-02-18 23:15:53
1382
转载 hive 中的多列进行group by查询方法
from http://blog.youkuaiyun.com/jiedushi/article/details/7579132在工作中用hive进行数据统计的时候,遇到一个用group by 进行查询的问题,需要统计的字段为gid,sid,user,roleid,time,status,map_id,num其中time字段为时间戳形式的,统计要求为将各个字段按照每个小时的num总
2014-02-17 14:24:32
507
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人