Cassandra是一套开源分布式NoSQL数据库系统,具有很高的写效率,而查询却不像关系型数据库那样可以通过任意字段过滤查询,虽然其有index功能,但相比关系型数据库的index并不强大.
对于cassandra来说,额外的写入可以让你改进读的性能,这一般是一种好的设计,相比些读取是一种更昂贵并且更困难的东西。因此官方提倡:你的数据结构应该适应你的查询语句,而不要依据关系来设计模型.
当我们需要对某些字段像关系型数据库那样创建唯一索引时,可以通过建立索引表的方式来提高查询效率,比如这样的场景,我们需要通过Student的学号(id,主键)或者电话(mobile, 假设mobile不重复)来获取某个学生的信息,在cassandra中由于mobile字段不是键,直接对mobile过滤查询并不高效,且官方不提倡在生产环境中使用allow_filtering.
实现方式很简单,当创建student对象是,重写save方法,发送创建索引的信号(类似于django的信号功能,信号使用的是python的blinker信号库),订阅该信号的函数同步创建所有索引字段的索引数据,当要使用非主键字段get查询某个对象时候,首先查询该字段的索引表,获取到对应的对象的键,再通过主键去查询对象的详细信息.
实现环境: sanic+cassandra+blink
代码如下:
from blinker import signal
from cassandra.cqlengine import columns
from cassandra.cqlengine.models import Model
post_save = signal('post-save')
class Student(Model):
__table_name__ = 'student'
id = columns.Text(primary_key=True, max_length=100)
name = columns.Text(max_length=20)
mobile = columns.Text(max_length=20)
def save(self):
"""
save后触发信号
Model.create,objects.create是调用save
:return:
"""
obj = super(Student, self).save()
post_save.send(obj.__class__, instance=obj)
return obj
class StudentMobileIndex(Model):
mobile = columns.Text(primary_key=True, max_length=20)
student_id = columns.Text(max_length=100)
# 指定只接收Student发送来的信号
@post_save.connect_via(Student)
def create_student_index(sender, instance, **kwargs):
"""
创建学生信息后自动为name和mobile字段创建索引
"""
if instance:
StudentMobileIndex.create(
mobile=instance.mobile,
student_id=instance.id)
def find_student_by_mobile(mobile):
"""
通过mobile查询学生信息
"""
try:
index = StudentMobileIndex.get(mobile=mobile)
except DoesNotExist:
return None
try:
student = Student.get(id=index.id)
except DoesNotExist:
return None
return student
使用方式:
Student.create(id='00001', name=u'张三', mobile='120123')
# 通过学号查询(id),主键查询
student = Student.get(id='00001')
# 通过电话号码查询(mobile),非主键字段查询
student = find_student_by_mobile('120123')