MRS

MapReduce服务(MapReduce Service)提供租户完全可控的企业级大数据集群云服务,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。

大数据是人类进入互联网时代以来面临的一个巨大问题:社会生产生活产生的数据量越来越大,数据种类越来越多,数据产生的速度越来越快。传统的数据处理技术,比如说单机存储,关系数据库已经无法解决这些新的大数据问题。为解决以上大数据处理问题,Apache基金会推出了Hadoop大数据处理的开源解决方案。Hadoop是一个开源分布式计算平台,可以充分利用集群的计算和存储能力,完成海量数据的处理。企业自行部署Hadoop系统有成本高,周期长,难运维和不灵活等问题。

针对上述问题,华为云提供了大数据MapReduce服务(MRS),MRS是一个在华为云上部署和管理Hadoop系统的服务,一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务,完全兼容开源接口,结合华为云计算、存储优势及大数据行业经验,为客户提供高性能、低成本、灵活易用的全栈大数据平台,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件,并具备在后续根据业务需要进行定制开发的能力,帮助企业快速构建海量数据信息处理系统,并通过对海量信息数据实时与非实时的分析挖掘,发现全新价值点和企业商机

产品架构

主要功能:
MRS架构包括了基础设施和大数据处理流程各个阶段的能力。

1. 基础设施
    MRS基于华为云弹性云服务器ECS构建的大数据集群,充分利用了其虚拟化层的高可靠、高安全的能力。
    虚拟私有云(VPC)为每个租户提供的虚拟内部网络,默认与其他网络隔离。
    云硬盘(EVS)提供高可靠、高性能的存储。
    弹性云服务器(ECS)提供的弹性可扩展虚拟机,结合VPC、安全组、EVS数据多副本等能力打造一个高效、可靠、安全的计算环境。

2. 数据集成
    数据集成层提供了数据接入到MRS集群的能力,包括Flume(数据采集)、Loader(关系型数据导入)、Kafka(高可靠消息队列),支持各种数据源导入数据到大数据集群中。

3. 数据存储
    MRS支持结构化和非结构化数据在集群中的存储,并且支持多种高效的格式来满足不同计算引擎的要求。

    HDFS是大数据上通用的分布式文件系统。
    OBS是对象存储服务,具有高可用低成本的特点。
    HBase支持带索引的数据存储,适合高性能基于索引查询的场景。

4. 数据计算
    MRS提供多种主流计算引擎:MapReduce(批处理)、Tez(DAG模型)、Spark(内存计算)、SparkStreaming(微批流计算)、Storm(流计算)、Flink(流计算),满足多种大数据应用场景,将数据进行结构和逻辑的转换,转化成满足业务目标的数据模型。

5. 数据分析
    基于预设的数据模型,使用易用SQL的数据分析,用户可以选择Hive(数据仓库),SparkSQL以及Presto交互式查询引擎。

6. 数据呈现调度
    用于数据分析结果的呈现,并与数据湖工厂(DLF)集成,提供一站式的大数据协同开发平台,帮助用户轻松完成数据建模、数据集成、脚本开发、作业调度、运维监控等多项任务,可以极大降低用户使用大数据的门槛,帮助用户快速构建大数据处理中心。

7. 集群管理
    以Hadoop为基础的大数据生态的各种组件均是以分布式的方式进行部署,其部署、管理和运维复杂度较高。

    MRS集群管理提供了统一的运维管理平台,包括一键式部署集群能力,并提供多版本选择,支持运行过程中集群在无业务中断条件下,进行扩缩容、弹性伸缩。同时MRS集群管理还提供了作业管理、资源标签管理,以及对上述数据处理各层组件的运维,并提供监控、告警、配置、补丁升级等一站式运维能力。

产品优势
MRS服务拥有强大的Hadoop内核团队,基于华为FusionInsight大数据企业级平台构筑。历经行业数万节点部署量的考验,提供多级用户SLA保障。

MRS具有如下优势:
1. 高性能
    MRS支持自研的CarbonData存储技术。CarbonData是一种高性能大数据存储方案,以一份数据同时支持多种应用场景,并通过多级索引、字典编码、预聚合、动态Partition、准实时数据查询等特性提升了IO扫描和计算性能,实现万亿数据分析秒级响应。同时MRS支持自研增强型调度器Superior,突破单集群规模瓶颈,单集群调度能力超10000节点。

2. 低成本
    基于多样化的云基础设施,提供了丰富的计算、存储设施的选择,同时计算存储分离,提供了低成本海量数据存储方案。MRS可以按业务峰谷,自动弹性伸缩,帮助客户节省大数据平台闲时资源。MRS集群可以用时再创建、用时再扩容,用完就可以销毁、缩容,确保成本最优。

3. 高安全
    MRS服务支持Kerberos安全认证,实现了基于角色的安全控制及完善的审计功能。MRS支持在华为云的公共资源区,资源专属区、客户机房的HCS Online上为客户不同物理隔离方式的一站式大数据平台。集群内支持逻辑多租,通过权限隔离,对集群的计算、存储、表格等资源按租户划分。

4. 易运维
    MRS提供可视化大数据集群管理平台,提高运维效率。并支持滚动补丁升级,可视化补丁发布信息,一键式补丁安装,无需人工干预,不停业务,保障用户集群长期稳定。

5. 高可靠
    MRS服务支持全节点高可用,实时短信/邮件通知。
    
应用场景
    大数据在人们的生活中无处不在,在IoT、电子商务、金融、制造、医疗、能源和政府部门等行业均可以使用华为云MRS服务进行大数据处理。

1. 海量数据分析场景
    海量数据分析是现代大数据系统中的主要场景。通常企业会包含多种数据源,接入后需要对数据进行ETL处理形成模型化数据,以便提供给各个业务模块进行分析梳理,这类业务通常有以下特点:

    对执行实时性要求不高,作业执行时间在数十分钟到小时级别。
    数据量巨大。
    数据来源和格式多种多样。
    数据处理通常由多个任务构成,对资源需要进行详细规划。
    例如在环保行业中,可以将天气数据存储在OBS,定期转储到HDFS中进行批量分析,在1小时内MRS可以完成10T的天气数据分析。

图1 环保行业海量数据分析场景

该场景下MRS的优势如下所示。

    低成本:利用OBS实现低成本存储。
    海量数据分析:利用Hive实现TB/PB级的数据分析。
    可视化的导入导出工具:通过可视化导入导出工具Loader,将数据导出到DWS,完成BI分析。

2. 海量数据存储场景
    用户拥有大量结构化数据后,通常需要提供基于索引的准实时查询能力,如车联网场景下,根据汽车编号查询汽车维护信息,存储时,汽车信息会基于汽车编号进行索引,以实现该场景下的秒级响应。通常这类数据量比较庞大,用户可能保存1至3年的数据。

    例如在车联网行业,某车企将数据储存在HBase中,以支持PB级别的数据存储和毫秒级的数据详单查询。

    图2 车联网行业海量数据存储场景

该场景下MRS的优势如下所示。

    实时:利用Kafka实现海量汽车的消息实时接入。
    海量数据存储:利用HBase实现海量数据存储,并实现毫秒级数据查询。
    分布式数据查询:利用Spark实现海量数据的分析查询。

3. 实时数据处理
    实时数据处理通常用于异常检测、欺诈识别、基于规则告警、业务流程监控等场景,在数据输入系统的过程中,对数据进行处理。

    例如在梯联网行业,智能电梯的数据,实时传入到MRS的流式集群中进行实时告警。

图3 梯联网行业低时延流式处理场景

该场景下MRS的优势如下所示。

    实时数据采集:利用Flume实现实时数据采集,并提供丰富的采集和存储连接方式。
    海量的数据源接入:利用Kafka实现万级别的电梯数据的实时接入。

### SUBT 和 MRS 的概述 #### 关于 SUBT (Subterranean Challenge) 地下挑战赛(Subterranean Challenge, SUBT)由 DARPA 发起,旨在推动自主机器人在复杂地下环境中的导航、探索和搜索能力。该竞赛涵盖了多种类型的地下场景,包括隧道网络、城市地下设施以及自然洞穴系统。参赛团队通常会开发集成视觉处理、SLAM 技术以及其他感知算法的机器人平台,以便应对这些环境中常见的低光照、高粉尘密度等问题。 为了支持这类研究工作,一些公开的数据集被创建出来用于训练和服务测试模型。例如,在服务机器人领域中提到的一个典型数据集包含了多模态传感信息采集方案设计[^3]。虽然此特定描述并未直接提及它是否专属于SUBT项目的一部分,但从其详尽记录的各种条件来看——比如视角变换、物体遮挡等因素考虑进去的话,则非常适合作为此类赛事准备阶段所使用的资源之一。 #### 对于MRS(Multi-Robot System)的理解 多机器人系统(Multi-Robot Systems, MRS),是指通过协调多个独立运作但相互协作的小型无人设备共同完成某项任务的技术框架。这种架构能够显著提高整体效率并增强系统的鲁棒性。特别是在像DARPA SUBT这样的比赛中,利用一组协同工作的地面车、无人机甚至水下探测器可以更全面地覆盖目标区域,并实时回传重要情报给操作员分析决策。 当涉及到具体实现细节时,往往需要用到高级别的状态估计方法论来确保各个节点间位置关系始终保持一致性和准确性。这里就可能牵涉到如何构建全局地图表示形式以及局部优化策略等内容讨论。比如说采用特征值分解手段对某些协方差矩阵进行剖析从而提取关键参数作为后续计算依据的做法就是其中一个例子[^4]。 ```python import numpy as np # 假设我们有一个协方差矩阵 C C = np.array([[2, 0], [0, 1]]) # 进行特征值分解 eigenvalues, eigenvectors = np.linalg.eig(C) print("Eigenvalues:", eigenvalues) print("Eigenvectors:\n", eigenvectors) ``` 上述代码片段展示了怎样基于 NumPy 库执行简单的特征值分解过程,这一步骤可以帮助理解有关空间分布特性等方面的知识点。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Freedom3568

技术域不存在英雄主义,不进则退

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值