
云计算
jackem
工作了10多年了,这几年只设计和开发了阿里旺旺,Alimail(正推出中),顺便搞了点分布式DB
展开
-
hadoop 又一个GFS
hadoop 实现了google的GFS,目前版本基本功能已经完成,负载均衡功能还没实现;master是单点,存在问题,需要增强http://hadoop.apache.org/core/docs/current/hdfs_design.html原创 2008-07-13 11:04:00 · 1465 阅读 · 0 评论 -
Google GFS
适用点: 1 文件比较大,一般为100MB及以上 2 整个系统里文件的数目不超过1000万 3 适合写一次,读多次的方式,文件很少做修改,顶多是append方式 4 适合搜索引擎Build出来的Document 作为存储 5 适合历史归档文件的数据仓库存储 特点: 1: 单个Master, master上只存储文件和chunk的原创 2008-07-27 15:14:00 · 1050 阅读 · 0 评论 -
MapDDB:一种按行关键字的分布式关系数据库系统
MapDDB: 是一种按行关键字散列的分布式关系数据库系统,主要用于解决数据库系统的水平扩充系统。在真实的互联网业务应用系统中,经常会碰到由于业务规模的增长,导致原有系统的数据库处理能力跟不上业务规模的增长,一般情况下只能不停地升级硬件系统,如从PC服务器升级到小型机,再对小型机进行升级,到中大型机器,或使用数据库系统自带的多节点方式,如使用Oracle,则可以使用RAC+SAN的方式,但一个RA原创 2008-10-22 19:29:00 · 3106 阅读 · 5 评论 -
Megastore看后有感
<br />今天有空看了一下Megastore的原理,发现我在Alimail中设计的东西跟Megastore基本上是一样的,只是由于项目时间关系,没有时间变成SQL语句。如EntityGroups就相当于Partition,如MBoxGroups,ChildTable相当于逻辑子表,Alimail中的基于Key的Transaction相当于简化版的Transaction,符合ACID;PageIndex相当于Megastore中的LocalIndex.<br /> <br />目前Alimail中没有实现的原创 2011-02-26 12:36:00 · 2410 阅读 · 3 评论 -
存储的分类设计考虑
现实中,对于存储的需求基本上可以归为3类1: Offline数据分析用的数据,如网站的访问日志分析,Online数据库里的数据的统计分析这类数据的量一般很大,对于大型互联网站来说是PB级单位,一般使用类似Hadoop/Hive之类的技术来分析是Offline分析,对于响应时间要求比较低。对于这类数据的存储在设计的时候考虑使用SATA盘,每台机器配6~12块1(2)TB的SATA盘,由于单块SATA盘的顺序读写能力基本上可以达到60MB/s以上,所以系统设计的时候需要充分考虑磁盘的利用;最好的算法是单个磁盘同原创 2011-03-17 21:33:00 · 1113 阅读 · 0 评论