前文写了一些memcached的简单示例,以及如何在centos上安装memcached服务器等,本文主要关注memcached的原理。
一、内存存储
默认情况下memcached是通过Slab Allocation机制来分配和管理内存的。Slab Allocation的原理是将内存分配为各种大小的块(chunk),并将尺寸相同的块组成组。
[img]http://dl2.iteye.com/upload/attachment/0109/2684/1567a62d-c9cc-3db6-81d7-8dd6c386fd12.gif[/img]
对于100bytes大小的内容如果要存储到memcached中,由于SlabClass1的chunk大小是88,存储不下,memcached会选择一个能存储下,并且最接近的chunk来存储,也就是图中chunk大小是112bytes的Slab Class2,虽然Slab Allocation机制是为了减少了内存碎片而产生的,但是仍然有12bytes大小的碎片产生。
为了减少碎片的产生,只能通过Growth Factor来根据具体的应用来调整chunk大小的增长速度来进行调优,该值默认是1.25。
二、分布式算法
首先分布式算法是由客户端决定的,而不是服务器,即如果有3个memcached服务器节点,要将某个key存放到哪台服务器节点中,是由客户端程序来计算出来的,而不是服务器。
[img]http://dl2.iteye.com/upload/attachment/0109/2686/bd56040b-8dce-3a97-8f77-081278a05393.gif[/img]
memcached获取的时候,由客户端程序选择set时相同的服务器节点来获取数据。
分布式算法最简单的方式是取余数的方法,例如有3台服务器(node1,node2,node3,node4),
那么1、2、3、4、5这5个key,存放的服务器节点分别为:
1、5:node1
2、6:node2
3、7:node3
4:node4
一般情况下这都没问题,但是如果此时增加了一台服务器(node5),那么获取的时候根据取余数的方法计算,则key=5到node5中获取,key=6到node1中获取,这样有大量的数据将失效,同样其中一台服务器down机的话,也会出现同样的问题。
一致性哈希算法是为了解决这个问题而出现的。
[img]http://dl2.iteye.com/upload/attachment/0109/2688/6cd9a783-90f1-3b93-a8b1-a73dd534fad8.gif[/img]
首先计算出服务器节点的hash值,将其分配到0-2^32的圆上,然后将要存放的数据也映射到圆上,然后顺时针查找,查找到的第一个服务器即是对应的服务器。
如果此时增加了一个节点,如下图所示,仅会影响一小部分数据,其余的均不受影响。
[img]http://dl2.iteye.com/upload/attachment/0109/2690/70238b7f-e8c8-3a11-848e-fc6c9177d75a.gif[/img]
三、数据过期处理
memcached没有内部监控记录何时过期,而是在get的时候来判断是否过期,这称为lazy Expiration,这样不需要开启一个线程不停的扫描,节省了CPU资源。ehcache也是通过这种方式来处理数据过期问题的。
一、内存存储
默认情况下memcached是通过Slab Allocation机制来分配和管理内存的。Slab Allocation的原理是将内存分配为各种大小的块(chunk),并将尺寸相同的块组成组。
[img]http://dl2.iteye.com/upload/attachment/0109/2684/1567a62d-c9cc-3db6-81d7-8dd6c386fd12.gif[/img]
对于100bytes大小的内容如果要存储到memcached中,由于SlabClass1的chunk大小是88,存储不下,memcached会选择一个能存储下,并且最接近的chunk来存储,也就是图中chunk大小是112bytes的Slab Class2,虽然Slab Allocation机制是为了减少了内存碎片而产生的,但是仍然有12bytes大小的碎片产生。
为了减少碎片的产生,只能通过Growth Factor来根据具体的应用来调整chunk大小的增长速度来进行调优,该值默认是1.25。
二、分布式算法
首先分布式算法是由客户端决定的,而不是服务器,即如果有3个memcached服务器节点,要将某个key存放到哪台服务器节点中,是由客户端程序来计算出来的,而不是服务器。
[img]http://dl2.iteye.com/upload/attachment/0109/2686/bd56040b-8dce-3a97-8f77-081278a05393.gif[/img]
memcached获取的时候,由客户端程序选择set时相同的服务器节点来获取数据。
分布式算法最简单的方式是取余数的方法,例如有3台服务器(node1,node2,node3,node4),
那么1、2、3、4、5这5个key,存放的服务器节点分别为:
1、5:node1
2、6:node2
3、7:node3
4:node4
一般情况下这都没问题,但是如果此时增加了一台服务器(node5),那么获取的时候根据取余数的方法计算,则key=5到node5中获取,key=6到node1中获取,这样有大量的数据将失效,同样其中一台服务器down机的话,也会出现同样的问题。
一致性哈希算法是为了解决这个问题而出现的。
[img]http://dl2.iteye.com/upload/attachment/0109/2688/6cd9a783-90f1-3b93-a8b1-a73dd534fad8.gif[/img]
首先计算出服务器节点的hash值,将其分配到0-2^32的圆上,然后将要存放的数据也映射到圆上,然后顺时针查找,查找到的第一个服务器即是对应的服务器。
如果此时增加了一个节点,如下图所示,仅会影响一小部分数据,其余的均不受影响。
[img]http://dl2.iteye.com/upload/attachment/0109/2690/70238b7f-e8c8-3a11-848e-fc6c9177d75a.gif[/img]
三、数据过期处理
memcached没有内部监控记录何时过期,而是在get的时候来判断是否过期,这称为lazy Expiration,这样不需要开启一个线程不停的扫描,节省了CPU资源。ehcache也是通过这种方式来处理数据过期问题的。