
算法
bluekeyv
致力于hadoop生态系统,专注hbase应用与研究
展开
-
一致性算法研究
一、Master/slave 这个是多机房数据访问最常用的方案,一般的需求用此方案即可。因此大家也经常提到“premature optimization is the root of all evil”。 优点:利用mysql replication即可实现,成熟稳定。 缺点:写操作存在单点故障,master坏掉之后slave不能写。另外slave的延迟也是个困扰人的小问题。 二、Multi-master Multi-master指一个系统存在多个master, 每个master原创 2010-03-30 15:35:00 · 1253 阅读 · 0 评论 -
如何根据cpu的processor数来确定程序的并发线程数量
我们可以在cat 里面发现processor数量,这里的processor可以理解为逻辑上的cpu。 这里摘抄的一段blog来说明: 什么是线程池大小的阻抗匹配原则? 我在《常用模型》中提到“阻抗匹配原则”,这里大致讲一讲。 如果池中线程在执行任务时,密集计算所占的时间比重为 P (0原创 2011-03-04 15:59:00 · 5169 阅读 · 0 评论 -
简单关键词匹配算法
针对微博的短篇博文,编写的简单分词和匹配算法。相对于一篇文档的复杂分词算法,能够在效率和可用性上得到较好的平衡。package com.sina.tblog.sentiment;import java.io.BufferedReader;import java.io.File;import java.io.FileOutputStream;import java.io.Fil原创 2012-12-18 15:17:20 · 6756 阅读 · 1 评论