每天积累一点点-优快云博客

转载 Linux监控命令全覆盖

from :http://blog.jobbole.com/81173/1.1 top1.1.1 命令说明Top 命令能够实时监控系统的运行状态，并且可以按照cpu、内存和执行时间进行排序 1.1.2 参数说明命令行启动参数：用法: top -hv | -bcisSHM -d delay -n iterations [-u user | -U

2014-12-17 10:06:21 573

转载 shell 引号转义符通配符特殊字符

shell使用引号(单引号/双引号)和反斜线("\")用于向shell解释器屏蔽一些特殊字符. shell转义符有三种，不只是 \ 。单引号、双引号、反斜杠。‘’(单引号)又叫硬转义，其内部所有的shell 元字符、通配符都会被关掉。注意，硬转义中不允许出现’(单引号)。“”(双引号)又叫软转义，其内部只允许出现特定的shell 元字符：

2014-12-09 15:48:56 1296

转载 hadoop的balancer

其实很多人都知道hadoop自带一个hadoop balancer的功能,作用于让各个datanode之间的数据平衡.比如说node-A有100GB数据,占用磁盘99%空间;而node-B只有10GB数据占用磁盘10%空间~那么当我们以hdfs身份运行hadoop balance的时候,hadoop将会平衡这两个node之间的数据.至于多少叫做平衡,hadoop的d

2014-05-23 10:46:08 1011

转载 sed简明教程

ed全名叫stream editor，流编辑器，用程序的方式来编辑文本，相当的hacker啊。sed基本上就是玩正则模式匹配，所以，玩sed的人，正则表达式一般都比较强。同样，本篇文章不会说sed的全部东西，你可以参看sed的手册，我这里主要还是想和大家竞争一下那些从手机指缝间或马桶里流走的时间，用这些时间来学习一些东西。当然，接下来的还是要靠大家自己双手。用s命令替换我使

2014-05-19 14:51:12 509

转载 IO不再神秘

随着所有的在高可用服务器设计上的炒作，以及nodejs背后的风行，我想关注一些IO的设计模式，却一直没有足够的时间。现在正在完成的一些研究，我想最好记下这些资料以备查。让我们跳上IO bus兜风去。各种各样的I/O根据操作的阻塞或非阻塞类型，以及IO的准备就绪、完成事件通知的同步和异步类型，一共有四种不同方式的IO。同步阻塞IO在许多web server上，典型的一

2014-05-13 15:09:54 716

转载 Hive与表操作有关的语句

1.创建表的语句：Create [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment],

2014-05-12 11:55:30 427

转载 Oracle Partition 分区详细总结

此文从以下几个方面来整理关于分区表的概念及操作: 1.表空间及分区表的概念 2.表分区的具体作用 3.表分区的优缺点 4.表分区的几种类型及操作方法 5.对表分区的维护性操作.(1.) 表空间及分区表的概念表空间：　是一个或多个数据文件的集合，所有的数据对象都存放在指定的表

2014-05-12 10:53:48 752

转载 zookeeper javaAPI

安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两个方面介绍 Zookeeper 的安装和配置。单机模式单机安装非常简单，只要获取到 Zookeeper 的压缩包并解压到某个目

2014-05-06 18:28:04 583

转载 Bloom Filter

Bloom Filter的中文翻译叫做布隆过滤器，是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。如文章标题所述，本文只是做简单介绍，属于科普文章。应用场景在正式介绍Bloom Filter算法之前，先来看看什么时候需要用到B

2014-04-01 11:32:10 746

转载十道海量数据处理面试题与十个方法大总结

第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率

2014-03-31 14:56:22 587

转载海量数据处理算法—Bit-Map

1. Bit Map算法简介来自于《编程珠玑》。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以大大节省。2、 Bit Map的基本思想我们先来看一个具体的例子，假设我们要对0-7内的5个元素(4,7,2,5,3)排序（这

2014-03-31 14:51:18 601

转载大数据计算：如何仅用1.5KB内存为十亿对象计数

为了更好地理解已经明确基数的大数据集的挑战，我们假设你的日志文件包含16个字符的ID,并且你想统计不同ID的数量.例如:4f67bfc603106cb2这16个字符需要用128位来表示。6万5千个ID将需要1MB的空间。我们每天收到30多亿条事件记录，每条记录都有一个ID。这些ID需要3840亿位或45GB的存储。而这仅仅是ID字段需要的空间。我们采取一种简单的方法获取日常事件记录

2014-03-31 14:48:08 726

转载 Linux基础篇之文本、数据流处理命令（sed uniq grep awk wc）

1 awk：文本和数据处理工具awk擅长于对数据进行分析并生成报告，简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。使用方法：awk '{pattern + action}' {filenames} 其中pattern 表示awk 在数据中查找的内容，而action是在找到匹配内容时所执行的一系列命令。花括号（{

2014-03-19 09:55:33 2422

转载 hive中文注释乱码问题

开始的时候使用hive-0.7.1在建表的时候使用如下语句hive>createtable t1(c1 string comment '列1');然后查看该表hive>describet1;其中的注释变成了乱码。后来得知是hive版本的问题，然后使用hive-0.8.0（该版本的代码经过了修改，从而支持中文显示）。（1）将原来hive-0.7.1创建

2014-03-11 15:14:03 2688

转载 TOP-查看CPU使用率，系统资源使用

top命令是Linux下常用的性能分析工具，能够实时显示系统中各个进程的资源占用状况，类似于Windows的任务管理器。下面详细介绍它的使用方法。top -01:06:48 up 1:22, 1 user, load average: 0.06, 0.60, 0.48Tasks: 29 total, 1 running, 28 sleeping, 0 stopped, 0 zomb

2014-02-26 20:38:26 5109

转载 Linux TOP-查看CPU使用率，系统资源使用

top命令是Linux下常用的性能分析工具，能够实时显示系统中各个进程的资源占用状况，类似于Windows的任务管理器。下面详细介绍它的使用方法。top -01:06:48 up 1:22, 1 user, load average: 0.06, 0.60, 0.48Tasks: 29 total, 1 running, 28 sleeping, 0 stopped, 0 zombie

2014-02-26 20:31:34 1216

转载 Linux free详解

下面是free的运行结果，一共有4行。为了方便说明，我加上了列号。这样可以把free的输出看成一个二维数组FO(Free Output)。例如：· FO[2][1] = 24677460· FO[3][2] = 10321516 1 2 3 4 5

2014-02-26 20:29:58 658

转载 hadoop2.0 公平调度器（fair-scheduler）配置

如果是第一次接触hadoop2.0版本的 Fairshare scheduler ，最好先看一下他的官方文档：http://hadoop.apache.org/docs/r2.2.0/hadoop-yarn/hadoop-yarn-site/FairScheduler.html yarn.resourcemanager.schedul

2014-01-27 11:46:17 2071

原创 hadoop2.2 FairScheduler UI不显示Resources

问题：安装hadoop2.2的FairScheduler配置队列，发现web页面不显示队列的Resources org.apache.hadoop.yarn.server.resourcemanager.webapp.FairSchedulerPage生成FairScheduler的页面，其中获取队列资源Resources展示的方法在render方法中。通过org.apache.hado

2014-01-27 11:41:03 751

原创 Hadoop2.2 HA安装

hdfs-site.xml 配置：1. dfs.nameservices ：配置nameservice的逻辑名称，与core-site.xml里fs.defaultFS配置的对应 dfs.nameservices mycluster2. dfs.ha.namenodes.[nameservice ID] ：在nameservice中给每个

2014-01-27 11:14:52 1197

原创 Statistics in Hive的mysql配置

HIVE执行insert overwrite时候默认会有临时的统计数据在derby数据库中。改成mysql库配置如下： hive.stats.dbclass jdbc:derby--> jdbc:mysql The default database that stores temporary hive statistics. hive.stats.jdbcdriver

2014-01-27 11:10:02 814

原创重新编译Hadoop2.2

1.必要的包1. yum install svn2. yum install autoconfautomakelibtool cmake3. yum install ncurses-devel4. yum install openssl-devel5. yum install gcc*2.安装maven下载apache-mav

2014-01-27 10:59:34 653

转载 rsync配置

rsync平时用到的地方很多,找了一个详细版本,有各项配置的说明以及几个例子贴上来备忘和参考用rsync是类unix系统下的数据镜像备份工具，从软件的命名上就可以看出来了--remote sync。它的特性如下：可以镜像保存整个目录树和文件系统。可以很容易做到保持原来文件的权限、时间、软硬链接等等。无须特殊权限即可安装。优化的流程，文件传输效率高。可以使用r

2014-01-15 11:21:05 955

转载 ZooKeeper 安装、配置

单机安装、配置：安装非常简单，只要获取到 Zookeeper 的压缩包并解压到某个目录如：/home/frank/ZooKeeperInstall/zookeeper-3.3.3下。配置文件存放在/conf/目录下，将zoo_sample.cfd文件名称改为zoo.cfg, 缺省的配置内容如下： # The number of mil

2014-01-09 17:28:13 524

原创 java 锁实例

1.Lock的简单应用public class LockTest { public static void main(String[] args) { final Outputter1 output = new Outputter1(); new Thread() { public void run() { output.output("zhangsan"); }

2014-01-02 19:52:22 928

原创 java动态代理实现

1.需要代理的对象：接口public interface Action{ void move(String name); void stop(); }实现public class ActionImpl implements Action{ @Override public void move(String name) { System.out.printl

2013-12-31 18:17:28 538

转载 java synchronized

Java语言的关键字，当它用来修饰一个方法或者一个代码块的时候，能够保证在同一时刻最多只有一个线程执行该段代码。一、当两个并发线程访问同一个对象object中的这个synchronized(this)同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。二、然而，当一个线程访问object的一个synch

2013-12-19 22:04:48 1230

原创 Shell学习笔记

命令格式：command [-potions] param1 param2 ...echo $LANG 当前语言(zh_CN.UTF-8,en_US,zh_CN.GB18030)set fileformat=unixalias hdfs='hadoop fs' 别名read myvar 交互式对变量赋值basename $0 去掉位置参数的路径 ./run.sh -->

2013-12-17 17:40:55 680

转载 Hadoop MapReduce容错性分析

1. JobTracker暂无容错机制，挂掉之后，需要人工介入，重启。用户可以通过配置一些参数，以便JobTracker重启后，让所有作业恢复运行。用户配置若干参数后，JobTracker重启前，会在history log中记录各个作业的运行状态，这样在JobTracker关闭后，系统中所有数据目录（包括各种临时目录）均会被保留，待JobTracker重启之后，JobTracker

2013-12-17 14:23:16 610

原创 js判断浏览器类型及版本（转）

第一种，只区分浏览器，不考虑版本[code="JavaScript"]function myBrowser(){ var userAgent = navigator.userAgent; //取得浏览器的userAgent字符串 var isOpera = userAgent.indexOf("Opera") > -1; if (isOpera){retur...

2012-09-17 14:36:08 118

原创 JS实现table列排序

[code="html"]JS实现table列排序 //调用比较函数 function sortTable(id,rowNum){ var oTable = document.getElementById(id);//获取以id为id的table对象 var oTbody = oTable.tBodies[0];//获取第一个tBody var oRows =...

2012-09-12 21:16:07 911

原创 highcharts：组合图，生成可以点击的横坐标

[size=medium]1.生成可以点击的横坐标主要的chart代码：[/size][code="java"]xAxis: { categories: [ '一月', '二月', '三月', '四月', '五月', '六月', ], labels: {//生成可以点击的横坐标 formatter: function() {//this...

2012-09-05 11:25:56 523

原创 mysql编码设置(转)

[size=medium]查看系统的字符集和排序方式的设定可以通过下面的两条命令或mysql> status 。 mysql> SHOW VARIABLES LIKE 'character_set_%'; +--------------------------+----------------------------+ | Variable_name | Value | +--...

2012-08-29 16:04:09 113

原创 Oracle分页查询

[size=medium]看到过三种分页查询语句[/size][color=blue]1.一般我们会用这个语句：[/color][code="java"]SELECT * FROM( SELECT A.*, ROWNUM RN FROM (SELECT * FROM TABLE_NAME) A WHERE ROWNUM = 11[/code] ...

2012-08-29 15:52:48 158

每天积累一点点