Cassandra Secondary Index 介绍

摘要

本文主要介绍cassandra中的索引,物化视图,有些知识点需要对cassandra有基本的认识才能理解。比如数据在cassandra节点中如何分布。如果有不明白的地方可以看本专栏之前文章。或者发送邮件和我探讨 cnstonefang@gmail.com。

为什么叫secondary index

CREATE TABLE user(
    id bigint,
    name text,
    email text,
    PRIMARY KEY(id)
);

在很多文档中可以看到cassandra index又被称为secondary index.这是相对primary index的概念。在创建上述user table 时,会根据primary key 默认创建 primary index,基于id 列。可以根据id来查询用户的信息。但是不同于关系型数据库。你没法根据email反向查id.为了实现这样的查询,可以基于email创建secondary index.

CREATE INDEX email_index ON user(email);

当你创建索引的时候,cassandra 会创建一个隐藏table来存储数据

CREATE TABLE email_index(
   email text,
   id  bigint,
   PARMARY KEY(text,id)
);

secondary index 的这张表的信息是local aware的。和节点的数据存放在一起。而primary index是global.所以当你根据primary index columns 来查询的时候,cassandra ring 环上的每个节点都是知道数据是存储在哪些节点上的。但是如果根据secondary index columns 来查询。cassandra ring 环上的所有节点都是不知道数据放在哪些节点上的。必须要查询所有的节点。这也是为什么很多人说cassandra secondary index的效率很低的原因。但是实际上cassandra是不是会这么去查询呢,当然不会这么简单粗暴。一个1000节点的cluster,如果都去查的话,查询的coordinator肯定撑不住了。

secondary index 查询

cassandra 首先要查询所有节点,对于每个节点,要进行本地查询。没有secondary index时,不指定partition key,因为既要扫描所有的partition,每个patition里面还得全扫描,因此cassandra不允许这样的操作。创建了对应字段的secondary index后,如果不指定partition key,必须带上 ALLOW FILTERING,才能进行查询,但是不建议在生产环境中使用。

本地查询:对于每个节点的本地查询,是比较简单明了的。根据secondary index columns值查询隐藏的index table,得到primary key,然后查询原表。

cluster 查询:对于所有节点查询,cassandra 基于partition keys实现了一套复杂的算法来优化范围扫描查询。当然这套算法不止针对于secondary index.适用于所有的范围扫描。
这套算法的基本点在于,循环查询。每一轮会根据CONCURRENCY_FACTOR 来决定有多少个节点会被查询,如果返回的数据不够。CONCURRENCT_FACTOR +1,直到返回的结果集够了。

注意cassandra是根据token range 来查询这些节点的,所以返回的结果集没有特定的顺序。

Notes
尽管cassandra对范围查询进行了优化,但是不可否认的是基于secondary index查询的效率还是比较低。最好的实践是在对secondary index查询时,能够带上primary index 条件。比如partition =xxx,partition in(xx,yy)或者token(partition)>= xxx AND token(partition)<=yyy

使用场合

适用于有很多行都有的某个列(cassandra不要求每一行都必须存所有的列),并且这列的值范围比较大。
另一方面,这些列不适合

1.经常更新,删除的列

cassandra 存储index 的墓碑有100K cells的限制,超过这个限制,基于index的column查询就会失败。
另外index的数据也是存在隐藏表里面的。如果经常更新删除这列数据,不仅要写主表,还要写隐藏表。

2.取值范围很低(low-cardinality)比如bool型

对这样的列做索引,没什么意义。index 表中只有两个partition了。如果主表数据很多的话,就会
每个partition就会很大。

3.取值范围很高(high-cardinality)比如上面的例子,一个id对应一个email.

如果对email做索引。那么当我们根据email查询时,就只有至多一个值了。最理想的情况,当我们
查询一个节点时,就恰好查到了。最糟糕的情况,得查询完所有的节点,才能查到。

看了2,3可能有些人很困惑,取值范围很低不适合index,取值范围很高也不适合index,有没有给出一个标准,什么
样的叫取值范围高,什么样的叫取值范围低。让我怎么去判断。其实在cassandra的很多地方都存在这样的问题,没有一个
非常严谨,准确的定义。需要使用者自己去平衡,根据实际的的表设计,数据分布去做性能分析,得出适合自己应用的表设计。

与物化视图,新表的区别

为了满足查询,cassandra经常需要创建新表,物化视图,索引来实现特点的查询。
索引的特点在上面已经提到了。新创建一张表会有数据冗余,但是在分布式存储系统中,这是完全可以接受的,相比较视图新表多了数据维护。但是有些情况视图和索引都解决不了,比如上面提的low-cardinality 情况,视图也没法解决。因为视图是global的,会造成hot-spot情况,及视图数据都只存在某些固定的节点。

另外视图的更新是异步更新的
对cassandra感兴趣的童鞋可以参入群(104822562)一起学习探讨
这里写图片描述

参考

http://www.planetcassandra.org/blog/cassandra-native-secondary-index-deep-dive/

https://docs.datastax.com/en/cql/3.3/cql/cql_using/useWhenIndex.html

http://www.datastax.com/dev/blog/materialized-view-performance-in-cassandra-3-x

https://wiki.apache.org/cassandra/WritePathForUsers

转载于:https://www.cnblogs.com/stoneFang/p/6715289.html

内容概要:本文从关键概念、核心技巧、应用场景、代码案例分析及未来发展趋势五个维度探讨了Python编程语言的进阶之路。关键概念涵盖装饰器、生成器、上下文管理器、元类和异步编程,这些概念有助于开发者突破基础认知的核心壁垒。核心技巧方面,介绍了内存优化、性能加速、代码复用和异步处理的方法,例如使用生成器处理大数据流、numba库加速计算密集型任务等。应用场景展示了Python在大数据处理、Web开发、人工智能和自动化运维等多个领域的广泛运用,特别是在FastAPI框架中构建异步API服务的实战案例,详细分析了装饰器日志记录、异步数据库查询和性能优化技巧。最后展望了Python的未来发展趋势,包括异步编程的普及、类型提示的强化、AI框架的深度整合以及多语言协同。 适合人群:已经掌握Python基础语法,希望进一步提升编程技能的开发者,特别是有意向从事数据科学、Web开发或AI相关工作的技术人员。 使用场景及目标:①掌握Python进阶概念和技术,如装饰器、生成器、异步编程等,提升代码质量和效率;②学习如何在实际项目中应用这些技术,如通过FastAPI构建高效的异步API服务;③了解Python在未来编程领域的潜在发展方向,为职业规划提供参考。 阅读建议:本文不仅提供了理论知识,还包含了丰富的实战案例,建议读者在学习过程中结合实际项目进行练习,特别是尝试构建自己的异步API服务,并通过调试代码加深理解。同时关注Python社区的发展动态,及时掌握最新的技术和工具。
内容概要:本文档《Rust系统编程实战》详细介绍了Rust在系统编程领域的应用,强调了其内存安全、零成本抽象和高性能的特点。文档分为三个主要部分:核心实战方向、典型项目案例和技术关键点。在核心实战方向中,重点讲解了unsafe编程、FFI(外部函数接口)和底层API调用,涉及操作系统组件开发、网络编程、设备驱动开发、系统工具开发和嵌入式开发等多个领域,并列出了每个方向所需的技术栈和前置知识。典型项目案例部分以Linux字符设备驱动为例,详细描述了从环境搭建到核心代码实现的具体步骤,包括使用bindgen生成Linux内核API的Rust绑定,定义设备结构体,以及实现驱动核心函数。 适合人群:对系统编程有兴趣并有一定编程基础的开发者,尤其是那些希望深入了解操作系统底层机制、网络协议栈或嵌入式系统的工程师。 使用场景及目标:①掌握Rust在不同系统编程场景下的应用,如操作系统组件开发、网络编程、设备驱动开发等;②通过实际项目(如Linux字符设备驱动)的学习,理解Rust与操作系统内核的交互逻辑;③提高对unsafe编程、FFI和底层API调用的理解和运用能力。 阅读建议:由于文档内容较为深入且涉及多个复杂概念,建议读者在学习过程中结合实际操作进行练习,特别是在尝试实现Linux字符设备驱动时,务必按照文档提供的步骤逐步进行,并多加调试和测试。
内容概要:本文针对现有配电网灵活性评估方法对网络传输能力考虑不足的问题,提出了一种新的评估方法。该方法首先建立了配电网灵活性供需模型,分析了4种供需匹配情况,接着提出3类灵活性评估指标,构建了以运行成本最低为目标的优化调度模型。通过改进的IEEE33节点配电网仿真验证了方法的有效性。重点解决了高比例分布式电源接入带来的波动性问题,为配电网灵活性评估提供了新思路。文中还详细介绍了MATLAB代码实现,涵盖参数初始化、灵活性需求和供给计算、评估指标计算、优化调度模型及可视化结果等方面。此外,对灵活性供需匹配的4种情况进行深入分析,并扩展实现了完整的灵活性评估系统,增加了动态时间尺度、增强可视化和实用扩展等功能,提升了系统的可扩展性和实用性。; 适合人群:从事电力系统研究、配电网规划与运营的专业人士,特别是关注分布式电源接入和电网灵活性评估的研究人员和技术人员。; 使用场景及目标:①评估含高比例分布式电源的配电网灵活性,解决DG接入带来的波动性问题;②通过优化调度模型最小化运行成本,提高配电网的运行效率;③利用扩展实现的系统进行多时间尺度仿真和不同场景下的对比分析,支持实际工程应用。; 其他说明:此资源不仅提供了详细的理论分析和MATLAB代码实现,还通过模块化设计增强了代码的可扩展性和实用性。建议读者结合具体配电网参数调整设备容量约束,根据当地电价政策优化成本系数,并采用历史数据训练更精确的场景生成模型。同时,可以通过并行计算加速仿真过程,采用交叉验证和蒙特卡洛仿真验证结果的稳定性和鲁棒性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值