- 博客(121)
- 收藏
- 关注
原创 HBase 修复region
定位线上问题发现HBase 60020端口响应总是超时。但线上服务器发现该region-server均正常。 通过 hbase hbck 发现该表虽然region 都在线,但是有几个region 有 hole。通过bin/hbase hbck -fix 定位修复。 在修复region后先关的聚类运算和关联的数据接入等任务都进行了重启和确认。 最终建模结果正常。 ...
2012-10-15 17:58:52
317
原创 ZZ 自动分类、相似度、去重等相关问题原理和算法
Google的吴军研究员写了数学之美系列,其中有“余弦定律与新闻的分类”和”矩阵运算和文本处理中的分类问题“对自动分类、相似度、去重等相关问题原理作了介绍,并找到一些相关算法:余弦定律与新闻的分类Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一...
2012-06-27 14:04:52
271
原创 ZZ I-Match算法 网页去重-算法篇
I-Match算法 网页去重-算法篇 网页去重-算法篇 前一篇(网页去重-比较文本的相似度-Near duplication detection )提到了5个解决网页去重的算法,这里我想讨论下这些算法1. I-Match 2. Shingliing3. SimHashing( locality sensitive hash) 4. Random Projection5. ...
2012-06-27 12:08:21
559
原创 ZZ 什么是Shingling算法 网页去重——Shingling 算法
什么是Shingling算法 网页去重——Shingling 算法 shingling算法用于计算两个文档的相似度,例如,用于网页去重。维基百科对w-shingling的定义如下: In natural language processing a w-shingling is a set of unique "shingles"—contiguous subsequence...
2012-06-27 12:04:01
294
原创 ZZ Hamming distance
Hamming distance n information theory, the Hamming distance, named after Richard Hamming, is the number of positions in two strings of equal length for which the corresponding elements are diff...
2012-06-27 10:54:59
134
linux进程端口信息查看
ZooKeeper监控连接方法如下: lsof –i:2181 > XXX.log wc –l XXX.log grep pid XXX.log > XXA.log wc –l XXA.log即可获取某个进程关于2181端口的连接。 此法可以扩展到其他端口监听。 如果lsof 命令不可用,则可以通过n...
2012-06-17 10:09:45
106
原创 ZZ 基于用户投票的排名算法
from: http://kb.cnblogs.com/page/135656/ 基于用户投票的排名算法(一):Delicious和Hacker News 基于用户投票的排名算法(二):Reddit 基于用户投票的排名算法(三):Stack Overflow 基于用户投票的排名算法(四):牛顿冷却定律 基于用户投票的排名算法(五):威尔逊区间 基于用户投票的排名算...
2012-06-11 09:59:37
251
原创 DFSOutputStream ResponseProcessor exception
WARN org.apache.hadoop.hdfs.DFSClient: DFSOutputStream ResponseProcessor exception for block blk_7400268305159146046_1226436java.net.SocketTimeoutException: 66000 millis timeout while waiting for ...
2012-06-06 11:30:22
1988
原创 JVM Crash分析
JVM Crash一般会生成core.pid文件和hs_err_pidXXXX.log。 打开hs_err_pidXXXX.log文件 一般有如下内容: A fatal error has been detected by the Java Runtime Environment:## SIGBUS (0x7) at pc=0x00007fb7006c6f31, pi...
2012-06-02 00:00:36
282
原创 ZZ 数据挖掘的方法论之谈CRISP-DM
from:http://kb.cnblogs.com/page/76804/在1996年,当时数据挖掘市场是年轻而不成熟的,但是这个市场显示了爆炸式的增长。三个在这方面经验丰富的公司DaimlerChrysler、SPSS、NCR发起建立一个社团,目的建立数据挖掘方法和过程的标准。在获得了EC(European Commission)的资助后,他们开始实现他们的目标。为了征集业界广泛的意...
2012-05-26 15:45:24
130
原创 java.lang.OutOfMemoryError: unable to create new native thread
今天压系统,出现一个java.lang.OutOfMemoryError: unable to create new native thread问题,整个linux系统都不可用了.通过top -H命令看到线程数大于3万。通过ulimit -s 看到堆栈大小100K.ps -mp <pid>定位到问题进程。 然后jstack pid 查看进程相关信息,定位到代码...
2012-05-09 21:55:45
188
Protocol Buffer的安装与使用
转载请注名出处和作者:franciscolv. http://www.cnblogs.com/franciscolv/archive/2012/05/05/2485348.html 最近要在产品中改进对象的序列化了。以前用的是java默认序列化实现功能,在产品上线之前要对关键的对象进行序列化/反序列化优化,以期改善存储效率。这里选取了Protocol buffer作为最终的方案,原因...
2012-05-05 20:30:23
125
原创 GC相关
java.lang.OutOfMemoryError: GC overhead limit exceeded 发生在GC占用大量时间为释放很小空间的时候发生的,是一种保护机制。解决方案是,关闭该功能,使用—— -XX:-UseGCOverheadLimit java.lang.OutOfMemoryError: java heap space 配置增大...
2012-04-19 12:12:22
106
原创 ZZ log4j配置说明
http://www.blogjava.net/sxyx2008/archive/2010/07/14/326028.html http://www.cnblogs.com/ITEagle/archive/2010/04/23/1718365.html
2012-03-24 21:58:37
106
2011个人总结
今天是2011的最后一天,即将迈入2012。回顾这一年,有成功,有失败,有老友相聚,有朋友相离,一天天在成长,一天天在成熟,很多时候不能随性了,真是痛并生活着。简单的总结一下2011吧。 过年的时候并没有回家,我知道自己在某公司的实习生涯要结束了,抓紧时间总结沉淀一下这些时日的收获,回顾了自己的技术收获,整理了一些blog,发了一些,虽然很水,这里发现自己沉淀能力不强,...
2011-12-31 14:33:30
135
MongoDB小经验
转载请著明作者与出处。franciscolv http://shuofenglxy.iteye.com/admin/blogs/1330539 第一条:划分shard,使用replSet,保证服务不会全部失效,存储容灾很关键。第二条:大表要分表,划分ReplSet之后,表还是只存在于一个shard中。小表看需要。第三条:良好的键值设计,字段名称要短,不要用传统的数据库方式思...
2011-12-30 15:32:06
102
原创 Linux硬件查看命令 ZZ
查看CPU信息(型号)# cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c 8 Intel(R) Xeon(R) CPU E5410 @ 2.33GHz(看到有8个逻辑CPU, 也知道了CPU型号)# cat /proc/cpuinfo | grep physical | uniq -c 4 ...
2011-12-09 12:16:33
102
原创 Linux slab 分配器详解 --- 了解 Linux 内存管理的方式Z
良好的操作系统性能部分依赖于操作系统有效管理资源的能力。在过去,堆内存管理器是实际的规范,但是其性能会受到内存碎片和内存回收需求的影响。现在,Linux® 内核使用了源自于 Solaris 的一种方法,但是这种方法在嵌入式系统中已经使用了很长时间了,它是将内存作为对象按照大小进行分配。本文将探索 slab 分配器背后所采用的思想,并介绍这种方法提供的接口和用法。动态内存管理内存管...
2011-10-30 18:31:10
145
原创 ZZ paxos 实现
paxos 实现from:http://rdc.taobao.com/blog/cs/?p=162本文主要介绍zookeeper中zookeeper Server leader的选举,zookeeper在选举leader的时候采用了paxos算法(主要是fast paxos),这里主要介绍其中两种:LeaderElection 和FastLeaderElection.我们先要清...
2011-10-10 10:44:33
99
原创 分布式事务处理,两端提交协议 ZZ
from:http://blog.sina.com.cn/s/blog_4a1f59bf0100pplp.html随着网络环境的日益普及,新的应用呈现出许多相似的特点那就是开放性和分布性。对于Internet商业应用来说分布性和开放性更是最基本的要求,并且随着人们对电子商务、安全防范等复杂的Web应用需求的增加,Web应用不仅仅是对只读信息的存取,面向商业活动的读取将迅速增加。这意味着,从...
2011-10-02 15:30:20
210
原创 数组查值
问题描述:{4,5,7,8,1,2} 找值为K的元素。两种做法,一种常规的稍好于直接查找,另一种为二分o(lgn)import java.util.Arrays;public class FindK { public static void main(String[] args) { int[] a = { 4, 5, 7, 8, 1, 2 }; in...
2011-09-27 16:42:50
91
全排列 递归式
简单的整理一下全排列思路。全部遍历,打印前筛选条件。全部遍历则是交换,递归,还原。 package SortSet;public class PermOrder { private int[] a; public PermOrder(int[] a) { this.a = a; } public static void main(String[] ...
2011-09-27 15:18:31
74
简单的四则运算计算器
这是一个简单的四则运算计算器,不支持括号,没有做乘法的越界计算和除0等异常处理。 只是简单的描述一个四则运算过程。 package SortSet;import java.util.Stack;public class OperationTest { private static Stack<Character> opeStack = ne...
2011-09-27 11:27:54
193
shell 命令 exec 建立tcp连接与关闭连接
shell 命令中要直接与java进程进行端口通信的话,可以使用exec 8>/dev/tcp/172.27.24.12/11111; if [ "$?" != "0" ];then echo "open $host $port fail!"; exit 1; fiecho "test">&8;exec 8>&
2011-09-01 15:12:59
2101
原创 ZZ TCP状态迁移 close_wait状态
TCP状态迁移大家对netstat -a命令很熟悉,但是,你有没有注意到STATE一栏呢,基本上显示着established,time_wait,close_wait等,这些到底是 什么意思呢,在这篇文章,我将会详细的阐述。大家很明白TCP初始化连接三次握手吧:发SYN包,然后返回SYN/ACK包,再发ACK包,连接正式建立。但是这里有点出入,当请求者收到SYS /ACK包后,就开...
2011-09-01 14:35:45
166
原创 ZZ select poll epoll区别
select的本质是采用32个整数的32位,即32*32= 1024来标识,fd值为1-1024。当fd的值超过1024限制时,就必须修改FD_SETSIZE的大小。这个时候就可以标识32*max值范围的fd。对于单进程多线程,每个线程处理多个fd的情况,select是不适合的。1.所有的线程均是从1-32*max进行扫描,每个线程处理的均是一段fd值,这样做有点浪费2.102...
2011-08-28 17:39:09
111
原创 高性能IO设计的Reactor和Proactor模式 ZZ
原文来自:http://simpleframework.net/bbs/835/14129.html在高性能的I/O设计中,有两个比较著名的模式Reactor和Proactor模式,其中Reactor模式用于同步I/O,而Proactor运用于异步I/O操作。在比较这两个模式之前,我们首先的搞明白几个概念,什么是阻塞和非阻塞,什么是同步和异步,同步和异步是针对应用程序和内核的交互而言的,同步指...
2011-08-19 11:37:01
102
java定时器实现
这两天在重构代码,发现有几个map有出现内存泄露的问题。考虑到独立性,通过java 的timetask来实现。这里要注意的地方就是任务起始时间的获得。 import java.util.Calendar;import java.util.Date;import java.util.Timer;import java.util.TimerTask;/**...
2011-08-11 17:05:02
126
Linux定时任务之Crontab
Crontab -e编辑定时任务***** 分 小时 天 周 月 +command即可。Crontab与java程序。如果想要定时调用java程序,则需要在调用的java程序之前声明path,并export path。顺带java home jre home classpath都要上。原来默认的系统设计path在crontab任务中无效。crontab 与dos2unix ...
2011-06-17 15:01:10
102
原创 Linux下修改mysql密码
mysql -uroot -p旧密码登录use mysql;update user set password=password('新密码') where user='root';FLUSH PRIVILEGES;quit;mysql -uroot -p新密码。OK了show databases;select version(); apache重启 ...
2011-06-02 15:08:05
118
原创 Linux vi命令
vi +filename 编辑文件内容:set ff 查看文件格式 dos 或者unix:set ff= unix:wq 存盘退出i 输入esc 退出文本编辑模式 ./filename.shsh filename.sh 一样 i 开始插入 dd删除一行x删除一个字符...
2011-05-18 12:00:00
77
原创 Linux命令
env 打印全部环境变量chown search:search recommend-log 把recommend-log目录owner转为seach组search用户。mkdir 建目录rmdir 删除空目录mv 移动文件目录到指定目录cp 复制文件 目录下所有文件到指定目录cd 进入目录 cd .. 退出目录date +%m 获取当前月份ll ...
2011-04-26 11:49:25
125
原创 ZZ:java WeakReference SoftReference and PhatomReference 介绍
Java 2 平台引入了 java.lang.ref 包,其中包括的类可以让您引用对象,而不将它们留在内存中。这些类还提供了与垃圾收集器(garbage collector)之间有限的交互。先“由强到弱”(只的是和垃圾回收器的关系)明确几个基本概念:strong references是那种你通常建立的reference,这个reference就是强可及的。这个不会被自动回收。例如:S...
2011-03-16 11:34:06
127
原创 封笔酝酿
额 前前后后写了不少东西了,更重要的是养成了一个积累的习惯。接下来的日子里,将减少blog写文章的数量,厚积薄发,慢慢积累。多读,多看,少写。工作一年之后,开始写高质量的blog....
2011-03-07 22:55:23
156
MapReduce初探与思考
MapReduce是hadoop的分布式计算框架,主要包括map与reduce两大阶段: Map阶段主要负责把数据输入转换成中间键值对结果,它要求输入为键值对方式,具体实现map方法就可以,产生的输出是以可序列化的键值对结果,对键要求可比较即可。而在读入输入数据之前,要求数据已经被逻辑分片。reduce阶段主要负责把中间结果进一步处理产生最后的输出结果。 ...
2011-03-03 14:01:57
161
python之动态增加对象方法
python3.1想要动态增加方法需要先Import types import typesclass Demo: def hello(self): print("hello world")helloInstance = Demo()def hello2(self): print ("hello again")Demo.hello2 ...
2011-03-01 17:09:58
147
原创 hadoop 基本注解: InterfaceAudience InterfaceStability
InterfaceAudience类包含三个注解类型,用来被说明被他们注解的类型的潜在的使用范围(audience)。 @InterfaceAudience.Public:对所有工程和应用可用 @InterfaceAudience.LimitedPrivate:仅限于某些特定工程,如Comomn,HDFS等 @Inter...
2011-03-01 14:36:56
176
Python之测试
测试函数功能:def average(values): """Computes. >>> print(average([1,3,5,7,9])) 5.0 """ return sum(values)/len(values) import doctestdoctest.testmo...
2011-02-28 10:14:55
142
原创 Python exception
BaseException +-- SystemExit +-- KeyboardInterrupt +-- GeneratorExit +-- Exception +-- StopIteration +-- ArithmeticError | +-- FloatingPointError | +-- Over...
2011-02-26 08:39:39
125
Python3.1之pickle
Python3.1把pickle cPickle合并了。调用的时候 直接import pickle as p 就可以了。 pickle就是python中序列化工具,可以序列化各种格式数据,甚至包括自己定义的。 简单的demo如下:import pickle as cpshoplistfile ='shoplist.data'shoplist=['apple',...
2011-02-26 08:17:36
104
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人