05大数据技术体系

博客围绕大数据技术体系中的分布式计算展开。分布式计算将应用分解,分配多台计算机处理,可提高效率。介绍了离线和流式两种分布式计算,离线计算数据量大、批量运算,技术有Mapreduce、SparkCore;流式计算实时处理流动数据,技术包括Spark Streamming、Storm。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大数据技术体系

在这里插入图片描述

大数据分布式计算

  • 大数据分布式计算1
    分布式计算
    分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。
    这样可以节约整体计算时间,大大提高计算效率。
    离线分布式计算
    在计算开始前已知所有输入数据,输入数据不会产生变化,并且计算之后直接产生结果。
    特点:
    数据量巨大且保存时间长
    在大量数据上进行复杂的批量运算
    数据在计算之前已经完全到位,不会发生变化
    能够方便的查询批量计算的结果
    主要技术:
    Mapreduce
    SparkCore
  • 大数据分布式计算2
    流式分布式计算
    对大规模流动数据在不断变化的运动过程中实时地进行计算,来一条数据就计算一下。
    主要技术:
    Spark Streamming
    Storm
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值