guoqiangma-优快云博客

转载 Storm常见模式------TimeCacheMap

Storm常见模式------TimeCacheMapStorm中使用一种叫做TimeCacheMap的数据结构，用于在内存中保存近期活跃的对象，它的实现非常地高效，而且可以自动删除过期不再活跃的对象。TimeCacheMap使用多个桶buckets来缩小锁的粒度，以此换取高并发读写性能。下面我们来看看TimeCacheMap内部是如何实现的。1. 实现原理桶链表：

2015-03-30 11:30:55 996

转载 linux下的shell 快捷键

Ctrl+p重复上一次命令Ctrl+a跳到第一个字符前Ctrl+x同上但再按一次会从新回到原位置Ctrl+b前移一个字符不删除字符情况下Ctrl+h删除前一个字符Ctrl+u删除提示符前的所有字符Ctrl+w同上Ctrl+d删除提示符后一个字符或exit或logoutCtrl+e转到字符尾部Ctrl+f后移一个字符Ctrl+k删除提示符后全部字符Ctrl

2014-12-23 17:18:53 704

转载 Storm Found multiple defaults.yaml resources

运行storm应用程序的的时候报了这个错这个想了下，肿么会有多个呢，后面觉得应该是在应用的jar包里面也把storm的defaultsyarm打进去了。找了下只看到[html] view plaincopy groupId>stormgroupId>

2014-07-22 16:57:48 2034

转载 java 之DelayQueue实际运用示例

http://www.cnblogs.com/sunzhenchao/p/3515085.html在学习Java 多线程并发开发过程中，了解到DelayQueue类的主要作用：是一个无界的BlockingQueue，用于放置实现了Delayed接口的对象，其中的对象只能在其到期时才能从队列中取走。这种队列是有序的，即队头对象的延迟到期时间最长。注意：不能将null元素放置到这种队列中。

2014-06-17 15:10:32 861

转载 Guava学习笔记：Guava cache

Guava学习笔记：Guava cache　　缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请

2014-06-12 15:09:49 691

转载 dpkg 命令使用说明

dpkg是一个debian包管理工具。能够对包进行安装、卸载、获取信息等操作。用法：安装（解包并配置）： dpkg -i package_file dpkg --install package_file 解包： dpkg --unpack package_file 该命令仅对“package_f

2014-04-23 15:31:28 6126

转载 win7 ubuntu 硬盘安装

注：欢迎大家访问我的个站，有问题可以在上面交流。地址:http://allenjin.me1）首先还是分区，在计算机上右键--管理--磁盘管理装Ubuntu分配的硬盘大小最好是(20G以上）不要太小，这里请注意，ubuntu和windows文件系统完全不同，所以我们划好要给ubuntu的分区后，删除卷。到时候，安装好的ubuntu的分区，在windows下是看不到的，但是进入ubu

2014-04-23 15:28:31 690

原创基于storm的实时框架

核心的实时架构和基于storm的实时架构的设计.一、实时的框架简介背景数据流计算来自于一个信念：数据的价值随着时间的流逝而降低，所以事件出现后必须尽快地对它们进行处理，最好数据出现时便立刻对其进行处理，发生一个事件进行一次处理，而不是缓存起来成一批处理。核心架构互联网上海量数据（一般为日志流）的实时计算过程可以被划分为以下三个阶段：数据的产生与收集阶段、传输

2014-04-11 18:38:42 2420

原创 hadoop运维之NameNode重启

操作流程（请谨慎处理，做好double check!!!）1.备份主节点的current 目录2.在second namenode 上执行./hadoop-daemon.sh start namenode -checkpoint3.等待30-40分钟，待checkpoint 完成后。到主节点上的current文件check fsimage 的修改时间，看是否已经同步成功。

2014-04-11 18:32:27 5341

原创 Haddoop RAID Node 调研

RAID Node 调研1. 简介分布式文件系统主要用于解决海量数据存储的问题，如Goolge、Facebook等大型互联网企业都使用分布式文件系统作为数据存储的基础设施，并在其上构建很多服务，分布式文件系统通常采用三副本的策略来保证数据的可靠性，但随着应用数据量的不断膨胀，三副本策略为可靠性牺牲的存储空间也越来越大，如何在不降低数据可靠性的基础上，进一步降低存储空间成本？

2014-04-11 18:22:27 1023

原创 hadoop监控系统

ELLA 监控需求XMonitor监控系统( svn目录 svn.d.xiaonei.com/hadoop/Xmonitor)1 监控展示NameNode : gc_heap/load/performance/cluster/operationJobTracker : gc_heap/rpc/job_status/queue_statusHMaster:Monitor: b

2014-04-11 17:34:07 1596

原创终端工具 Terminator

一 TTerminator是CrunchBang的默认终端，该终端基于GNOME terminal。Terminator最大的特点就是可以在一个屏幕下同时显示多个终端。Terminator可以在Ubuntu在同一窗口中启动多个终端。可以自由的在一个窗口中分割区域建立新终端，通过鼠标拉伸调整每个终端的大小，对同时需要操作多个终端的用户非常方便。同时操作多个VPS的时候不用切换终端窗口，在

2014-04-11 16:59:51 1644

转载 Heartbleed 实战：一个影响无数网站的缓冲区溢出漏洞

Heartbleed 实战：一个影响无数网站的缓冲区溢出漏洞作者 : 李博杰昨天 OpenSSL 爆出了名为 Heartbleed 的重大安全漏洞（CVE-2014-0160），通过 TLS 的 heartbeat 扩展，可以读取运行 HTTPS 服务的服务器上长达 64 KB 的内存，获取内存中可能存在的敏感信息。由于这个漏洞已经存在三年，Debian stable (wh

2014-04-09 13:28:04 1724

原创 kerberos 认证方式-主机认证

kerberos 认证方式-主机认证业务系统常有这样的需求，从a机器连b机器，即ssh的方式远程调用b机器上得脚本或者命令，每次都要输入用户名和密码，很麻烦把密码写进脚本里，人员变动之后还要改密码，这个非常麻烦，为了解决这个问题，使用kerborse认证的方式能不能也实现类似ssh免密码登陆那样的功能呢！下面就介绍一下怎么做，一共只有两步：1、目标机器改k5logi

2014-04-09 00:53:08 5118

原创 Sqoop导表在大并发下造成RegionServer的系统cpu过高

对于初始时只有一个Region并配置过多的map时，可能会造成某一RegionServer的系统cpu过高，主要原因是多个map任务会通过RPC同时向一个RegionServer写入数据，当RegionServer的RPC Handler线程过少时，其它map端就会等待，此时RegionServer会堆积大量的网络请求二无法及时响应，从而造成系统cpu过高，解决方案:方案一:增大R

2014-04-09 00:49:28 2395

原创 python 访问hbase

通过thrift，我们可以使用python访问hbase。关于thriftthrift是一个跨语言服务的软件开发框架（Thrift is a software framework for scalable cross-language services development.）。它的官方网站是：http://incubator.apache.org/thrift/

2014-04-09 00:46:17 911

原创 HBase-Regions in Transition 问题

1. 问题描述发现hbase集群中有一个表的regionzai

2014-04-09 00:36:56 8266

原创 hadoop系统运维-linux quta配置

1. 客户端 quta 配额修改(1) 编辑账户/群组的阀值与宽限时间用edquota去设置用户myquota1的磁盘使用限制。七个栏位的意义分别是：(1)檔案系統 (filesystem)：說明該限制值是針對哪個檔案系統 (或 partition)；(2)磁碟容量 (blocks)：這個數值是 quota 自己算出來的，單位為 Kbytes，請不要更動他；

2014-04-09 00:31:15 1085

原创 Unix时间戳(Unix timestamp) → 北京时间相互转换

在分布式系统中经常有linux时间戳作为标记，

2014-04-09 00:28:14 7246

原创【leetcode】Clone Graph

Clone an undirected graph. Each node in the graph contains a label and a list of its neighbors.OJ's undirected graph serialization:Nodes are labeled from 0 to N - 1, where N is the total nod

2014-02-25 01:07:48 626

转载 hadoop使用中的几个小细节

最近在hadoop实际使用中有以下几个小细节分享:1 中文问题从url中解析出中文,但hadoop中打印出来仍是乱码?我们曾经以为hadoop是不支持中文的，后来经过查看源代码，发现hadoop仅仅是不支持以gbk格式输出中文而己。这是TextOutputFormat.class中的代码，hadoop默认的输出都是继承自FileOutputFormat来的，File

2014-02-25 00:36:05 552

原创 YARN编程实例—distributedshell源码分析

1. 概述本文介绍YARN自带的一个非常简单的应用程序编程实例---distributedshell，他可以看做YARN编程中的“hello world”，它的主要功能是并行执行用户提供的shell命令或者shell脚本。本文主要介绍distributedshell 的实现方法。Distributedshell的源代码在文件夹src\hadoop-yarn-proje

2014-02-24 16:13:26 818

原创 hadoop2.2.0编译

安装依赖包这些库啊包啊基本都会在编译过程中用到，缺少的话会影响编译，看到error了再找solution非常麻烦，提前装好一劳永逸。$ sudo apt-get install g++ autoconf automake libtool cmake zlib1g-dev pkg-config libssl-dev因为还要用到ssh，所以如果机器上没有的话，装个openssh的客户端

2014-02-24 16:12:06 667

转载 [YARN] 编程模型-MR

本文会首先介绍Yarn上如何支持MapReduce编程模型，然后再阐述在Yarn上构建的编程模型和运行时环境的方法，最后总结使用Yarn构建分布式系统的一些高级特性。Yarn支持MapReduce编程模型经过对编程模型的分析，编程模型是由作业执行逻辑、数据组织方式以及中间数据传输模式三个部分确定。Hadoop1.0版本，运行时环境和编程模型紧耦合，也就是编程模型这三部分全

2014-02-23 22:50:04 1899

转载 Linux上的free命令详解

http://www.cnblogs.com/coldplayerest/archive/2010/02/20/1669949.html解释一下Linux上free命令的输出。　　下面是free的运行结果，一共有4行。为了方便说明，我加上了列号。这样可以把free的输出看成一个二维数组FO(Free Output)。例如：FO[2][1] = 24677460FO[3]

2014-02-11 14:49:38 710

原创 hadoop分布式缓存

分布式缓存一个最重要的应用就是在进行join操作的时候，如果一个表很大，另一个表很小很小，我们就可以将这个小表进行广播处理，即每个计算节点上都存一份，然后进行map端的连接操作，经过我的实验验证，这种情况下处理效率大大高于一般的reduce端join，广播处理就运用到了分布式缓存的技术。DistributedCache将拷贝缓存的文件到Slave节点在任何Job在节点上执行之前，文件在每个

2014-01-21 23:28:59 1566

原创 python 访问hbase

通过thrift，我们可以使用python访问hbase。关于thriftthrift是一个跨语言服务的软件开发框架（Thrift is a software framework for scalable cross-language services development.）。它的官方网站是：http://incubator.apache.org/thrift/

2014-01-16 11:12:51 1118

转载 K-means聚类算法(非MapReduce实现)

K-means聚类算法援引：http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html1.概念 k-means 算法接受输入量 k ；然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“

2014-01-13 17:46:55 676

转载 K-最邻近算法

1.基本介绍 K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所

2014-01-13 17:45:29 1340

转载 Linux 有趣命令

1. sl 命令sl是指“steam locomotive（蒸汽机车）”，你会看到一辆火车从屏幕右边开往左边。。。。。。安装 $ sudo apt-get install sl 运行 $ sl可以通过设置别名，给别人来个恶作剧，让ta敲ls就跑出个火车出来，不知道的肯定很有效果 O(∩_∩)O$alias ls=sl2. fortune 命令输出一

2014-01-02 18:26:03 748

转载 hadoop集群负载不均衡及balance工具详解

在线上的hadoop集群运维过程中，hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布，以避免出现部分datanode磁盘占用率高的问题（这问题也很有可能导致该节点CPU使用率较其他服务器高）。可能的原因：1. 突然磁盘使用率变高而文件块数并没有很大的增加，极有可能是出现某个用户的作业产生大量大的文件，排查删除掉就课可以。注意将tras

2013-09-02 09:04:58 3363

转载 hadoop shell 命令

概述所有的hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。用法：hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS] Hadoop有一个选项解析框架用于解析一般的选项和运行类。命令选项 --conf

2013-09-02 08:58:10 717

原创 STORM：/usr/local/lib/libjzmq.so.0.0.0: wrong ELF class: ELFCLASS64

这种问题多半是java环境变量导致的，在服务器端是64位java ，而编译程序和运行的是32位的，检查java的版本就OK了# java -versionjava version "1.6.0_30"Java(TM) SE Runtime Environment (build 1.6.0_30-b12)Java HotSpot(TM) 64-Bit Server VM (build

2013-08-22 11:04:20 1252

转载 JAVA NIO 简介

转自http://www.iteye.com/topic/8344471. 基本概念IO 是主存和外部设备 ( 硬盘、终端和网络等 ) 拷贝数据的过程。 IO 是操作系统的底层功能实现，底层通过 I/O 指令进行完成。所有语言运行时系统提供执行 I/O 较高级别的工具。 (c 的 printf scanf,java 的面向对象封装 )2. Java 标准 io 回顾

2013-04-03 16:31:33 572

原创 terminator快捷键

CTRL+SHIFT+O/E 水平或者垂直新建一个窗口　　CTRL+SHIFT + LEFT/RIGHT/UP/DOWN 左/右/上/下移动当前窗口　　CTRL+SHIFT+s 显示/隐藏 scrollbar 　　CTRL+TAB/CTRL+SHIFT+TAB 移动到下/上一窗口　　ALT+ LEFT/RIGHT/UP/DOWN 分别移动到当前窗口的左/右/上/下窗口

2013-03-22 16:43:15 1082

原创 Maven 手动添加 JAR 包到本地仓库

使用maven进行编译的时候经常会发现有的jar包不在仓库中，需要手动添加jar包，比如下面的例子 jar 包是放到了 D:\mvn 目录下(D:\mvn\spring-context-support-3.1.0.RELEASE.jar)那么我在 cmd 中敲入的命令就应该是：mvn install:install-file -Dfile=D:\mvn\spring-context

2013-02-02 15:18:23 688

转载 Log4j自定义Appender介绍

转自 http://gemantic.iteye.com/blog/1234996最初想要在执行一段业务逻辑的时候调用一个外部接口记录审计信息，一直找不到一个比较优雅的方式，经过讨论觉得log4j自定义的appender或许可以实现此功能。后来就了解了一下log4j的这部分。 Apache Log4j 架构 Apache Log4j是当前在J2EE和J2SE开发中用得最多的

2013-01-17 15:46:51 1384

转载 HBase性能优化方法总结

转自http://blog.linezing.com/2012/03/hbase-performance-optimization本文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。有关HBase系统配置级别的优化，这里涉及的不多，这部分可以参考：淘宝Ken Wu同学的博客。1. 表的设计1.1 Pre-Creating Regions

2012-11-29 20:30:06 559

转载对互联网海量数据实时计算的理解

转自 http://www.cnblogs.com/panfeng412/archive/2011/10/28/realtime-computing-of-big-data.html1. 实时计算的概念互联网领域的实时计算一般都是针对海量数据进行的，除了像非实时计算的需求（如计算结果准确）以外，实时计算最重要的一个需求是能够实时响应计算结果，一般要求为秒级。个人理解，互联网

2012-10-30 23:11:20 908

转载 HBase专题介绍6

我的废话1: 任何一项新技术并非救命稻草，一抹一擦立马药到病除的百宝箱，并非使用Spring或者NOSQL的产品就神乎其神+五光十色，如果那样基本是扯淡。同类型产品中不管那种技术最终要达到的目的是一样的，通过新的技术手段你往往可能避讳了当前你所需要面对的问题，但过后新的问题又来了。也许回过头来看看还不如在原来的基础上多动动脑筋想想办法做些改良可以得到更高的回报。

2012-10-25 17:22:09 459

单片机原理与应用教程

windows api

空空如也