MapR上的高可用性

MapR融合数据平台的高可用性详解

最新推荐文章于 2022-07-11 20:32:23 发布

翻译最新推荐文章于 2022-07-11 20:32:23 发布 · 643 阅读

文章标签：

#MapR-FS

MapR 专栏收录该内容

0 篇文章

订阅专栏

MapR融合数据平台提供高级HA功能，确保关键数据无丢失，支持作业和NoSQL应用的高可靠性。MapR的元数据HA、MapReduce HA、NFS HA和即时恢复功能保证了持续的系统可用性和服务SLA。此外，平台允许在计划停机期间维持服务，提供滚动升级，简化NoSQL维护，并为各种服务实现HA。

介绍
高可用性（HA）是指系统能够在出现无法预料的故障时保持正常运行的能力，避免意外停机或服务中断。HA是企业依赖的关键功能，可支持面向客户的应用程序和服务级别协议

HA在MapR融合数据平台中的优势
MapR融合数据平台中的高级HA功能为尝试利用大数据的组织提供了许多好处

没有数据丢失
MapR平台确保关键数据永远不会通过可配置的复制级别丢失。自动故障转移可确保群集始终可用，因此大数据应用程序可以全天候运行，从而帮助组织满足严格的业务SLA

可靠的工作
尽管相关的作业跟踪器或资源管理器出现故障，但MapR平台上的作业仍然完成。通过避免重新启动作业（尤其是长时间运行的MapReduce分析作业），这极大地提高了集群效率和资源利用率。

24x7 NoSQL应用程序
MapR通过提供即时恢复功能并消除与NoSQL内务管理相关的停机时间，支持组织快速从面向批处理的分析逐步发展到其数据湖上的运行NoSQL应用程序。

持续访问数据
MapR通过NFS接口为数据湖提供前所未有的应用程序和用户访问。为确保连续，不间断的操作，MapR使NFS访问具有弹性。

在计划停机期间维持可用性
升级大型集群通常需要服务中断。MapR提供的选项可确保即使在软件升级等维护任务的计划停机期间也可以使用群集

MapR HA实施
MapR平台是唯一专为24x7环境设计的数据平台，可为大数据集群的多个关键元素提供HA。MapR不仅为数据和作业完成提供HA，还为MapR平台上运行的接入点和辅助服务提供HA。

元数据HA
群集元数据包括有关应用程序数据位置和关联副本的重要信息。因此，元数据HA对于长时间运行的集群操作至关重要。

MapR可以从多个同时发生的故障中提供自我修复功能，从而始终可以实现群集可用性。MapR自动分片并复制其元数据以及应用程序数据，使HA成为核心架构的一部分。这也使得实现HA非常容易，HA开箱即用，无需在专用硬件上部署专用节点，并且只需最少的配置即可进行设置和监控。作为一个额外的优势，分布式元数据架构允许极高的可扩展性，对可以存储在集群上的文件数量没有实际限制

MapReduce HA
MapR是唯一支持全功能MapReduce HA的数据平台。即使关联的跟踪器和资源管理器出现故障，作业也将继续完成。在其他大数据平台中，硬件故障会导致作业失败，从而需要完全重新启动作业。此功能适用于MapReduce v1以及MapReduce v2（YARN）作业。

NFS HA
MapR通过标准NFS（网络文件系统）接口独特地提供对大数据的网络附加存储（NAS）样式访问。MapR允许您通过NFS挂载集群，并确保NFS挂载点也启用了HA。这确保了对传入流数据和需要随机读/写的应用程序的连续不间断访问

NoSQL应用程序的即时恢复
MapR确保来自故障节点的数据可自动立即供NoSQL应用程序使用。自动和即时故障转移意味着没有重新分配延迟时间，确保不间断的可用性。

即时恢复流媒体应用程序
MapR Streams可确保来自故障节点的事件数据自动立即可用于流应用程序。生产者和消费者应用程序都可以使用自动故障转移。自动和即时故障转移意味着没有重新分配延迟时间，确保不间断的可用性。

Zero NoSQL维护
在最大限度地减少服务中断的目标中，MapR要求零NoSQL维护以进一步提高可用性。随着数据负载的增长，自动，工作负载感知的扩展可保持高性能。简化的体系结构意味着不需要管理NoSQL服务器，从而减少了故障点的数量。优化的无压缩设计可防止破坏性I / O风暴，并消除执行内务处理任务的停机时间

滚动升级
滚动升级还有助于最大限度地减少中断。用户可以通过在群集上执行维护或软件升级来消除计划的停机时间，同时在系统继续运行的同时执行几个节点。

服务HA
分发元数据的MapR模型可以轻松扩展到MapR平台上运行的服务。通过将服务配置为将状态信息存储为集群元数据的一部分并通过向ZooKeeper注册服务，可以轻松地为MapR集群上运行的任何服务实现HA。如果服务中断，ZooKeeper和Warden服务会负责自动重新启动其他节点上的服务。

基于HDFS的数据平台和HA
基于HDFS的数据平台提供最低限度的HA功能。所有基于HDFS的数据平台都依赖于称为NameNode的单独服务器来存储和处理元数据。这种方法会产生性能和可伸缩性瓶颈，迫使数据存储的联合模型通过在整个系统中创建多个故障点来进一步增加SLA风险。

更重要的是 - 从HA的角度来看 - 这个模型需要一个Active-Standby实现，最终只能防止一个故障。这意味着如果在更换/修复故障节点之前有另一个与NameNode相关的故障，则会丢失或损坏数据。

此外，系统的复杂性增加了设置和配置。管理员还有与配置专用硬件相关的其他任务 - 这也增加了总体拥有成本 - 以适应NameNode。该设置还必须确保在活动节点和备用节点之间持续共享元数据，并使群集中的每个节点始终保持与活动节点和备用节点的心跳连接。

在这里插入图片描述