数据摄取:从数据库到文件的全面指南
1. NoSQL 数据库的数据摄取
如今,关系型数据库管理系统(RDBMS)仍然是大多数应用程序最常用的数据库后端。但近年来,NoSQL 数据库的受欢迎程度也显著上升。NoSQL 是一类数据库的统称,其设计原则之一是牺牲一些 RDBMS 的特性(如事务性、持久性等),以支持大量操作、易于通过创建机器集群进行扩展,或采用更灵活的面向文档的数据模型。
构建 NoSQL 数据库的数据摄取管道面临挑战,因为没有统一的标准来规定如何从这些数据库中提取数据以及以何种格式将数据呈现给摄取应用程序。“NoSQL”这个名称就意味着通常不支持将 SQL 作为数据访问语言,而且每个 NoSQL 数据库供应商都有自己的 API 集来访问数据。
以下是将 NoSQL 数据库的数据摄取到云数据平台的常见方法:
- 使用现有的商业或 SaaS 产品 :如果这类产品适合你的技术环境和预算,这是阻力最小的途径。销售数据摄取工具的供应商通常有丰富的各种 NoSQL 数据库连接器。
- 为你的 NoSQL 供应商实现专用的摄取应用程序 :你需要开发一个使用特定于你的 NoSQL 数据库的客户端库的摄取应用程序。这种方法提供了最大的灵活性,因为你可以使用数据库的所有功能。你还可以使用之前描述的指南实现全量或增量摄取。
- 使用变更数据捕获(CDC)插件(如果可用) :一些流行的 NoSQL 供应商提供了 CDC 插件。例如,MongoDB 有一个 Debezium 连接器,它可以捕获对数据库所做的所有更改,并将其作为流写入 Kafka。
超级会员免费看
订阅专栏 解锁全文
61

被折叠的 条评论
为什么被折叠?



