slx_2011-优快云博客

原创 Druid源码分析--整体结构

代码版本0.9.1项目地址https://github.com/druid-io/druid.git代码整体结构api 核心接口层，整个代码库的最底层common 公共方法，依赖apiexamples 实例indexing-hado

2017-02-24 16:28:09 4968

原创 tar命令打包时剔除无用的子目录

tar zcvf backup.tar.gz site/* --exclude=site/attach --exclude=site/images简单解释一下：ls -l | grep “^-" 用来把当前目录下所有文件列出来，不包括子目录；awk '{print "dollar"8}' 用来把ls和grep输出的文件名取出来；xargs 将前面一串的输出，

2017-02-08 17:09:47 5029

原创 Supervisor永不挂掉的进程

使用Supervisor管理Linux进程简介Supervisor是一个C/S系统,它可以在类UNIX系统上控制系统进程，由python编写，提供了大量的功能来实现对进程的管理。安装sudo pip install supervisor1配置安装完成 supervisor 之后，可以使用 “echo_supervisord_conf” 命令来生成样例配置

2017-02-07 13:38:18 5852 1

原创 Python升级2.4到2.7

Python升级 # yum install gcc gcc-c++.x86_64 compat-gcc-34-c++.x86_64 openssl-devel.x86_64 zlib*.x86_64 # wget http://www.python.org/ftp/python/2.7/Python-2.7.tar.bz2 # tar -xvjf Python-2.7.tar.bz2

2017-02-07 13:37:07 1333

原创 spark初探--单机快速安装

上次接触spark还在2013年，那会应该是0.*的版本，相当的不稳定，近两年spark越来越火，实在是受不了诱惑，膜拜膜拜。安装那点小事单机伪分布尝尝鲜，下载http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz，要求python2.6+ java1.7+ scala2.11+

2017-01-23 10:37:31 521

原创 Scala基本语法

基本语法Scala 基本语法需要注意以下几点：区分大小写 - Scala是大小写敏感的，这意味着标识Hello 和 hello在Scala中会有不同的含义。类名 - 对于所有的类名的第一个字母要大写。如果需要使用几个单词来构成一个类的名称，每个单词的第一个字母要大写。示例：class MyFirstScalaClass方法名称 -

2017-01-19 15:50:46 567

原创 Scala 特性

Scala 特性面向对象特性Scala是一种纯面向对象的语言，每个值都是对象。对象的数据类型以及行为由类和特质描述。类抽象机制的扩展有两种途径：一种途径是子类继承，另一种途径是灵活的混入机制。这两种途径能避免多重继承的种种问题。函数式编程Scala也是一种函数式语言，其函数也能当成值来使用。Scala提供了轻量级的语法用以定义匿名函数，支持高阶函数，允许嵌套

2017-01-19 15:48:25 1403

原创 Scala简介

Scala 简介Scala 是 Scalable Language 的简写，是一门多范式的编程语言联邦理工学院洛桑（EPFL）的Martin Odersky于2001年基于Funnel的工作开始设计Scala。Funnel是把函数式编程思想和Petri网相结合的一种编程语言。Odersky先前的工作是Generic Java和javac（Sun Java编译器）。J

2017-01-19 15:47:42 343

原创写在2017年的一月

重新写起博客来，记录点滴，不断成长，写给自己，即将步入而立之年的程序员。

2017-01-19 15:40:44 308

翻译 ambari编译前环境准备

原文地址：https://cwiki.apache.org/confluence/display/AMBARI/Ambari+Development1/安装gityum install git2/下载ambari源码git clone https://git-wip-us.apache.org/repos/asf/ambari.gitcd ambari3

2015-04-14 10:52:39 1269

原创编译安装Ambari

1.1 需要安装的工具1.1.1 安装JDK输入命令[root@bigData-02 ~]# java –versionjava version "1.7.0_51"Java(TM) SE Runtime Environment (build 1.7.0_51-b13)Java HotSpot(TM) 64-Bit Server VM (bu

2015-04-14 10:07:32 1493

转载 spark简介

转自：http://tech.uc.cn/?p=2116概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再

2015-04-03 17:50:14 944

转载 MR1与MR2（yarn）对比

原地址：http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/对于业界的大数据存储及分布式处理系统来说，Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架，对于 Hadoop 框架的介绍在此不再累述，读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架（0.20.0 及之前版本）

2015-04-03 17:39:06 8185

转载 hadoop工作原理

1.Job类初始化JobClient实例，JobClient中生成JobTracker的RPC实例，这样可以保持与JobTracker的通讯，JobTracker的地址和端口等都是外部配置的，通过Configuration对象读取并且传入。2.JobClient提交作业。3.JobClient生成作业目录。4.从本地拷贝MapReduce的作业jar文件(一般是自己写的程序

2015-04-03 17:37:13 998

原创 hive统计分析窗口函数实战

窗口函数应用场景：（1）用于分区排序（2）动态Group By（3）Top N（4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明RANK()返回数据项在分组中的排名，排名相等会在名次中留下空位DENSE_RANK()返回数据项在分组中的排名，排名相等会在名

2015-04-01 15:07:41 3664

原创 linux使用supervisor监控fluentd进程

1/配置[program:td-agent]command=td-agent -o /var/log/td-agent/td-agent.logprocess_name=%(program_name)sautostart=trueautorestart=truestartsecs=10[inet_http_server] ; inet (TCP)

2015-03-30 15:55:02 1067

转载 linux下使用supervisor监控应用程序

1 应用场景应用程序需要24小时不间断运行。这时可使用supervisor监控应用程序的进程。当发生应用程序内部错误退出、进程被杀死等情况时，自动重启应用程序。2 supervisorsupervisor由python写成，简单好用。官方网站 http://supervisord.org，上面有详细的指南文档。3 安装supervisor

2015-03-30 15:46:27 2173

原创 hadoop日志收集解决方案--fluentd配置文件

type tailformat apachepath /Data/logs/nginx/access.logpos_file /var/log/td-agent/nginx.postag nginx.accesspos_file建议设置，方便fluentd挂掉以后，继续传递，确保数据完整性type copytype filepath /var/log

2015-03-30 15:04:30 1856

转载开源日志收集软件fluentd 转发(forward)架构配置

需求：通过开源软件fluentd收集各个设备的apache访问日志到fluentd的转发服务器中，然后通过webHDFS接口，写入到hdfs文件系统中。软件版本说明：hadoop版本：1.1.2fluentd版本：1.1.21测试环境说明：node29服务器上安装了apache，以及fluentd，作为fluentd的客户端；

2015-03-30 14:32:29 3189

转载利用fluentd构建分布式日志管理系统

如何有效地收集和管理大量服务器的日志一直是企业很头疼的一个问题，部分企业应用shell脚本来管理，部分企业基于hadoop来开发自己的日志管理系统，第一种管理成本巨大，需要大量的人力来维护脚本的正常运行，第二种研发成本高昂，那么如何才能降低这两方面的成本呢。下面我们来介绍fluentd这种分布式日志管理系统，希望大家在了解之后，能得出自己的答案。首先我们需要一台装有mongodb的服务器用

2015-03-30 14:32:07 1873

Hadoop经常用于处理大量的数据，如果期间的输出数据、中间数据能压缩存储，对系统的I/O性能会有提升。综合考虑压缩、解压速度、是否支持split，目前lzo是最好的选择。LZO（LZO是Lempel-Ziv-Oberhumer的缩写）是一种高压缩比和解压速度极快的编码，它的特点是解压缩速度非常快，无损压缩，压缩后的数据能准确还原，lzo是基于block分块的，允许数据被分解成chunk，能够被并

2015-03-30 11:42:15 3469

原创 libc.so.6误删除，补救措施

安装高版本的glibc后，系统并没有直接使用查看glibc位置 /lib64/libc.so.6 64位系统，在此位置，32位，应该是/lib/下ll 查看软链修改软链，需要注意使用如下命令，更新软链位置，否则会失败LD_PRELOAD=/lib64/libc-2.12.so ln -s /opt/glibc-2.14/lib/libc-2.14.so /lib64/libc.so

2015-03-27 11:23:19 3058

原创 libc2.14安装

glibc的下载地址：http://ftp.gnu.org/gnu/glibc/或者：http://www.gnu.org/software/libc/download.html------------------------------------------------------------------------安装：下载的glibc的源码解压到某个目录，并进入源码目录建

2015-03-27 11:17:58 1593

原创 unable to load native-hadoop library问题细谈

根据大家常用的方式，重新编译了hadoop源码，并替换lib/native下的文件，发现还是报waring，决定细看一下首先打开debug日志，查看问题的根源，hadoop-env.sh 添加export HADOOP_ROOT_LOGGER=DEBUG,console 日志提示glibc 2.14 not found，可能这个是问题的根源吧，遂查看glibc版本，确实很低，决定安

2015-03-27 11:14:55 1056

原创 WARN util.NativeCodeLoader: Unable to load native-hadoop library解决方案

在运行hadoop的时候，出现警告：WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable原因：Apache提供的hadoop本地库是32位的，而在64位的服务器上就会有问题，

2015-03-26 17:58:27 1474

转载 hadoop2.6.0版本集群环境搭建

一、环境说明1、机器：一台物理机和一台虚拟机2、linux版本：[spark@S1PA11 ~]$ cat /etc/issueRed Hat Enterprise Linux Server release 5.4 (Tikanga)3、JDK: [spark@S1PA11 ~]$ java -versionjava version "1.6.0_27"J

2015-03-26 17:19:40 856

转载 presto初探【0.52版本】

prestohttp://www.dw4e.com/?p=141http://blog.youkuaiyun.com/u012417026/article/details/14516631confhadoop@yard02:~/bigdata/presto-server-0.52/$ tar zxvf presto-server-0.52.tar.gzhadoop@yard02:~/bi

2014-09-05 14:18:41 1197

转载 couchbase 与 redis的横向对比

couchbase 与 redis的横向对比发表回复 COUCHBASEREDIS类别NoSQLNoSQL网站www.couchbase.comredis.IO许可证GFDLApache许可证2Couchbase公司企业许可协议：免费版Couchbase公

2014-08-01 15:43:43 4463

原创常用HTTP Content-type头信息及文件类型对照

ai application/postscript aif audio/x-aiff aifc audio/x-aiff aiff audio/x-aiff

2014-07-10 21:11:21 845

原创 hadoop计数器（二）

MapReduce Counter为提供我们一个窗口：观察MapReduce job运行期的各种细节数据。今年三月份期间，我曾经专注于MapReduce性能调优工作，是否优化的绝大多评估都是基于这些Counter的数值表现。MapReduce自带了许多默认Counter，可能有些朋友对它们有些疑问，现在我分析下这些默认Counter的含义，方便大家观察job结果。我的分析是基于H

2014-07-10 18:56:40 664

转载 hadoop计数器（一）

转自：http://yjplxq.blog.51cto.com/4081353/1330128org.apache.hadoop.mapreduce.FileSystemCounter FILE_BYTES_READFILE_BYTES_WRITTENFILE_READ_OPSFILE_LARGE_READ_OPSFILE_WRITE_OPSHDFS_B

2014-07-10 18:48:18 1040

转载 hive小文件合并

转自：http://blog.youkuaiyun.com/yfkiss/article/details/8590486当Hive输入由很多个小文件组成，由于每个小文件都会启动一个map任务，如果文件过小，以至于map任务启动和初始化的时间大于逻辑处理的时间，会造成资源浪费，甚至OOM。为此，当我们启动一个任务，发现输入数据量小但任务数量多时，需要注意在Map前端进行输入合并当然，在我们向一个

2014-07-10 16:22:19 663

原创 datanode进程宕掉解决方案

异常描述：hadoop跑一段时间以后几台datanode无故宕掉，chakna异常分析：解决方案：

2014-06-12 21:52:26 2407

转载 HDFS超租约异常总结（org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException）

异常信息：13/09/11 12:12:06 INFO hdfs.DFSClient: SMALL_BUFFER_SIZE is 512org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: No lease on /tmp/put_dir/20

2014-06-12 19:52:00 3172

转载 Hadoop-0.20.2公平调度器算法解析

1. 目的本文描述了hadoop中的公平调度的实现算法，公平调度器是由facebook贡献的，适合于多用户共享集群的环境的调度器，其吞吐率高于FIFO，论文参见参考资料[1]。本文分析的Hadoop版本是0.20.2，在新版本（0.21.0）中，公平调度算法已经有了改进与增强。本文组织结构如下：1）目的 2）公平调度介绍 3）公平调度算法分析 4）新版hadoop中公平调度

2014-05-30 11:09:48 843

原创 hadoop公平调度配置详解（二）fair-scheduler.xml篇

配额文件为每一个资源池配置最小共享资源、运行作业限制、权重和抢占超时时间。HADOOP_HOME/conf/fair-scheduler.xml.template提供了一个示例例子。配额文件可以包含下列类型的元素：pool元素，配置各个资源池。它们可能包含下列子元素：　　　　。minMaps和minReduces，设置资源池最小共享的任务时间片。　　　　。maxRunningJ

2014-05-30 10:31:43 4498

原创 hadoop公平调度配置详解（一）mapred-site.xml篇

可以在mapred-site.xml中设置下面的参数来影响公平调度器的行为：基本参数属性名描述mapred.fairscheduler.allocation.file指定一个XML文件的绝对路径，该文件包含了每个资源池的最小共享资源、每资源池和每用户的并发运行作业数和抢占超时时间。如果没有设置这个属性，这些特性将不会被使用。配

2014-05-30 10:13:14 3264

原创 hadoop异常记录，job长期处于pending状态，资源空闲不被使用

异常描述：

2014-05-30 10:07:46 7521

转载 http请求之GET、POST对比分析

转自：http://my.oschina.net/leejun2005/blog/136820刚看到群里又有同学在说 HTTP 协议下的 Get 请求参数长度是有大小限制的，最大不能超过 XX，而 Post 是无限制的，看到这里，我想他们定是看多了一些以讹传讹的博客或者书籍，导致一种理解上的误区：1、首先即使有长度限制，也是限制的是整个 URI 长度，而

2014-05-09 09:37:46 1975

原创 hive异常处理

一、异常描述二、异常处理三、

2014-05-08 19:18:58 1376

空空如也

空空如也