探索数据新维度：Stratio Crossdata —— 分布式多数据源计算框架-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00083/article/details/139460928

探索数据新维度：Stratio Crossdata —— 分布式多数据源计算框架

crossdataDISCONTINUED - Easy access to big things. Library for Apache Spark extending and improving its capabilities项目地址:https://gitcode.com/gh_mirrors/cr/crossdata

项目介绍

Stratio Crossdata 是一个基于 Apache Spark 的分布式框架，它提供了一个统一的接口来访问和处理各种类型的数据存储，包括批量处理和流处理。这个项目的主要目标是通过其增强的 SQL-like 语言，简化与多个数据存储（如 Apache Cassandra, MongoDB, ElasticSearch 等）的交互，并提高了查询性能。现在，即使面对复杂的数据结构，也可以使用简单易懂的 SQL 语句进行操作。

注意：此项目已被废弃，请参阅仓库中的详细信息。

项目技术分析

Crossdata 建立在 Apache Spark 之上，扩展了 SparkSQL 功能，提供了更强大的元数据管理、执行树优化和更丰富的 SQL 支持。它由以下组件组成：

Crossdata Core：这是一个库，可以无缝集成到现有的 Spark 系统中，只需添加 Crossdata 的 JAR 文件。
Crossdata Server：为 SparkSQL 提供了一个多用户环境，保证高可用性和可扩展性。
Crossdata Driver：提供了 Scala 和 Java 的 API 接口，支持 JDBC 和 ODBC，以便与 BI 工具集成。
Crossdata Connectors：针对特定数据存储进行了优化，利用原生访问加速查询并提供额外特性。

此外，Crossdata 兼容社区开发的各种 Spark 连接器，如 Datastax-Spark-Connector (用于 Cassandra), Stratio-Spark-Connector (用于 MongoDB), 和 Elastic-Spark-Connector (用于 ElasticSearch)。