FusionInsight MRS云原生数据湖






1、FusionInsight MRS概述


1.1、数据湖概述

数据湖是一个集中式存储库,允许以任意规模存储所有结构化和非结构化数据。可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析, 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策

在这里插入图片描述
数据湖的价值在于它能够在更短的时间内从更多来源利用更多数据,并使用户能够以不同方式协同处理和分析数据,从而做出更好、更快的决策

1.2、FusionInsight概述

FusionInsight智能数据湖采用了领先的Lakehouse架构,将数据湖和数据仓库的优势融合在一起,提供了高效、规范、灵活、简洁的架构和低资源占用。这种架构降低了传统湖仓割裂导致的系统间复杂度,并减少了在湖、仓、AI开发之间来回迁移数据的工作

FusionInsight官网:https://www.huaweicloud.com/product/huaweicloudstack/fusioninsight.html

在这里插入图片描述
FusionInsight由4个子产品和1个操作运维系统组成:

  • Fusion Insight HD(大数据处理环境):一个分布式数据处理系统,对外提供大容量的数据存储、分析查询和实时流式数据处理分析能力
  • Fusion Insight MPPDB(并行处理关系型数据库):采用大规模并行处理(Massively Parallel Processing,MPP)架构,支持行存储和列存储,提供PB级数据量的处理能力
  • Fusion Insight Miner(数据分析平台):基于Fusion Insight HD的分布式存储和并行计算技术,提供从海量数据中挖掘有价值的信息
  • Fusion Insight Farmer(大数据应用容器):为企业业务提供统一开发、运行和管理的平台
  • Fusion Insight Manager(操作运维系统):提供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和补丁等功能

FusionInsight包括多个云服务‌:MRS云原生数据湖、DWS云数据仓库、DGC数据湖治理中心、GES图引擎等

在这里插入图片描述
1.3、MRS概述

华为MRS(MapReduce Service)是华为云推出的一种大数据处理服务,基于开源的Hadoop生态系统,通过简化的大数据处理流程,为用户提供一个高效、灵活、安全的大数据计算平台

华为MRS不仅支持传统的批处理任务(如MapReduce),还支持Spark、Hive、HBase等多种大数据处理引擎,适用于各类数据分析、处理和存储任务

通过华为云MRS,企业可以在云环境中构建自己的大数据平台,进行数据存储、计算、分析和可视化,帮助企业处理海量数据并从中提取有价值的洞察

华为MRS作为一个高性能的大数据处理平台,提供了一种高效、可靠、安全的数据管理和分析平台,可以帮助企业和组织更好地管理和利用海量数据

MRS介绍:https://support.huawei.com/enterprise/zh/doc/EDOC1100328015/5984720e

MRS官网:https://www.huaweicloud.com/product/mrs.html

MRS功能总览:https://support.huaweicloud.com/intl/zh-cn/function-mrs/index.html

华为MRS的优势包括:

  • 计算存储分离

    MRS具备计算存储分离的先进架构,鲲鹏加持,多核高性价比

  • 灵活弹性伸缩

    资源灵活配比,可以选择多种计算和存储资源进行组合,按需自动弹性伸缩,大大降低上云成本

  • 完全兼容开源

    100%兼容开源生态接口,存算分离数据迁移,支持屏蔽OBS接口,业务无感知,客户业务代码“0”改动

  • 搬迁简单快速

    搬迁工具齐全,简单快速完成无业务中断迁移方案

在这里插入图片描述
1.4、FusionInsight MRS概述

FusionInsight MRS是华为FusionInsigth HD企业级大数据平台与华为云MRS服务的融合版本,是华为云(Huawei Cloud)、HCS(Huawei Cloud Stack)统一的企业级大数据云服务

FusionInsight MRS完全兼容开源组件接口,结合华为云计算、存储优势及大数据行业经验,为客户提供高性能、高性价比、灵活易用的全栈大数据平台,可以一站式运行Hadoop、Spark、HBase、Kafka、Flink等大数据组件,帮助企业快速构建海量数据处理系统

在这里插入图片描述
FusionInsight MRS针对开源组件进行了优化升级,提供全新能力,并在社区基础上对功能、性能、可靠性等方面进行了增强。例如,Hive支持Tez引擎,支持Flink On Hive等

2、FusionInsight MRS解决方案


FusionInsight MRS云原生数据湖让客户在一个Lakehouse湖仓一体架构上实现“三湖一集市”,满足用户在建设数据湖过程中快速构建现代数据平台、持续演进的需求

在这里插入图片描述

3、FusionInsight MRS优势


FusionInsight MRS的优势包括:

在这里插入图片描述

4、FusionInsight MRS功能


FusionInsight MRS云原生数据湖提供三个核心功能:

4.1、离线数据湖:Lakehouse湖内建仓,分析链路短,建设周期短

在这里插入图片描述
4.2、实时数据湖:数据全链路实时分析,价值兑现从T+1到T+0

在这里插入图片描述
4.3、逻辑数据湖:跨湖协同分析,效率50倍提升

在这里插入图片描述

华为云FusionInsight MRS官方培训系列课程:https://bbs.huaweicloud.com/forum/thread-145085-1-1.html




参考文章:https://blog.youkuaiyun.com/qq_20042935/article/details/125068919


参考资源链接:[华为云优化Apache Hudi查询实践:湖仓一体架构的秘密加速器](https://wenku.youkuaiyun.com/doc/42brny2yec) 在华为FusionInsight MRS架构中,Apache Hudi和Presto的结合使用对于大数据分析至关重要。要优化查询性能,首先要从数据布局开始。数据布局优化的关键在于合理设计分区策略和数据排序。合理设置分区字段可以减少查询时的数据扫描范围,而数据排序则可以提高数据检索效率,特别是当涉及到大量数据时,有效的排序可以减少查询引擎的I/O成本。例如,根据查询中常见的过滤条件来设计分区键,可以大幅度减少需要扫描的数据量。 其次,索引策略的选择和应用对于查询性能同样至关重要。索引可以为数据查询提供快速的查找路径,减少全表扫描的需要。在Apache Hudi中,可以通过创建列索引(Column Indexes)来加快查询速度,特别是在处理复杂查询和大量数据的情况下。对于Presto来说,可以利用Hudi生成的索引信息来优化查询计划,从而提升查询性能。 在华为云提供的实践中,还可以利用Data Skipping技术来进一步提升查询性能。Data Skipping允许查询引擎跳过那些不满足查询条件的数据块,只读取需要处理的数据,这在处理大规模数据集时尤其有效。通过上述方法,结合华为FusionInsight MRS提供的高性能计算资源,可以实现对Apache Hudi进行精细的数据布局和索引策略优化,进而显著提高Presto的查询性能。 总的来说,通过深入理解数据布局和索引策略,并结合华为FusionInsight MRS的特性,可以有效地提升Hudi数据湖和Presto查询引擎的性能,为大数据分析带来更高的效率和更好的用户体验。如果你希望更深入地了解如何在华为FusionInsight MRS架构下优化Hudi和Presto,建议阅读《华为云优化Apache Hudi查询实践:湖仓一体架构的秘密加速器》一书,该书详细介绍了这一过程中的原理和实践方法,将为你提供在大数据领域深入研究的坚实基础。 参考资源链接:[华为云优化Apache Hudi查询实践:湖仓一体架构的秘密加速器](https://wenku.youkuaiyun.com/doc/42brny2yec)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值