Apache Cassandra简介-优快云博客

本文链接：https://blog.youkuaiyun.com/zuishengmengsi1990/article/details/51085470

https://www.ibm.com/developerworks/cn/opensource/os-apache-cassandra/#fig1

https://zh.wikipedia.org/wiki/Cassandra

Apache Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发，用于储存收件箱等简单格式数据，集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。Cassandra使用了Google BigTable的数据模型，与面向行的传统的关系型数据库不同，这是一种面向列的数据库，列被组织成为列族（Column Family），在数据库中增加一列非常方便。对于搜索和一般的结构化数据存储，这个结构足够丰富和有效。
Cassandra的系统架构与Dynamo一脉相承，是基于O(1)DHT的完全P2P架构，与传统的基于分片的数据库集群相比，Cassandra可以几乎无缝地加入或删除节点，非常适于对于节点规模变化比较快的应用场景。
和其他数据库比较，Cassandra有三个突出特点：
模式灵活：使用Cassandra，像文档存储，你不必提前解决记录中的字段。你可以在系统运行时随意的添加或移除字段。这是一个惊人的效率提升，特别是在大型部署上。
真正的可扩展性：Cassandra是纯粹意义上的水平扩展。为给集群添加更多容量，可以指向另一台电脑。你不必重启任何进程，改变应用查询，或手动迁移任何数据。
多数据中心识别：你可以调整你的节点布局来避免某一个数据中心起火，一个备用的数据中心将至少有每条记录的完全复制。
一些使Cassandra提高竞争力的其他功能：
范围查询：如果你不喜欢全部的键值查询，则可以设置键的范围来查询。
列表数据结构：在混合模式可以将超级列添加到5维[来源请求]。对于每个用户的索引，这是非常方便的。
分布式写操作：有可以在任何地方任何时间集中读或写任何数据。并且不会有任何单点失败。
与类似系统的比较

Hadoop HBase
Hadoop HBase是Apache Hadoop项目的一个子项目，是Google BigTable的一个克隆，与Cassandra一样，它们都使用了BigTable的列族式的数据模型，两者的主要不同在于：
Cassandra只有一种节点，而HBase有多种不同角色，又架构在Hadoop底层平台之上，部署上Cassandra更简单；
Cassandra的数据一致性策略是可配置的；
HBase提供了Cassandra没有的行锁机制，Cassandra要想使用锁需要配合其他系统，如Hadoop Zookeeper；
HBase提供更好的MapReduce并行计算支持，Cassandra在0.6版本也提供了这个功能；
Cassandra的读写性能和可扩展性更好，但不擅长区间扫描。