
分布式
文章平均质量分 73
lance_123
2010-07-06
目前在某家互联网公司从事软件开发工作.
主要研究分布式计算与存储,数据库技术,数据挖掘算法,WEB搜索技术,开源项目等,另外对数学,人工智能,心理学也感兴趣。
联系方式:lianhuiwang09@gmail.com
微博:http://t.sina.com.cn/1685831233
展开
-
集群工具chukwa和ganglia
<br /><br />众所周知,hadoop是运行在分布式的集群环境下,同是是许多用户或者组共享的集群,因此任意时刻都会有很多用户来访问NN或者JT,对分布式文件系统或者mapreduce进行操作,使用集群下的机器来完成他们的存储和计算工作。当使用hadoop的用户越来越多时,就会使得集群运维人员很难客观去分析集群当前状况和趋势。比如NN的内存会不会在某天不知晓的情况下发生内存溢出,因此就需要用数据来得出hadoop当前的运行状况。<br />Chukwa就是利用了集群中的几个进程输出的日志,如NN,DN原创 2011-01-23 00:32:00 · 3669 阅读 · 1 评论 -
数据复制的几种方案
清明节,居然下雨,正好有时间看电影,在youku上把将爱看完了。 先留个位置,抛出几个点来,以便以后补充。最近一阵子时间,看了hbase,tair,redis项目的代码,加上之前的一些积累,在数据复制上这几个项目有些不同,其中hbase与hadoop是一样的,redis与tair较相似。主要有以下几种方案:1. 一种是典型的数据仓库架构,一次写多次读。时间拉的比较长,一般的分布式系统都会选择三个副本,因此在这种设计时,会一次性写三个副本,只要其中有个副本失败了,就需要重原创 2011-04-03 11:36:00 · 2219 阅读 · 0 评论 -
流式计算框架
流式计算框架 S4 S4会将数据里的每一条记录包装成event事件,每个事件是一个KV对,同时有eventType来标示这个事件的类型。 PE是S4中的基本运算单元。每个PE只负责处理自己所关心的eventtype,并且只处理自己所对应的key值的event。PE处理后可能原创 2011-09-02 10:25:03 · 4874 阅读 · 0 评论