【大数据】这里只有干货分享:谈谈那些大数据近似算法

本文深入探讨大数据处理的近似算法,包括降低数据规模的策略、数据流模型和分布式模式的优势。重点介绍了随机采样、水塘采样、Misra-Gries算法和布隆过滤器,阐述了这些方法如何在保证误差可控的同时,高效处理大数据查询和存储问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

1、 处理大数据的两种思维模式是什么?

处理大数据的问题主要是如何扩展计算能力,扩展计算能力的方案主要有以下两种:

(1)超级计算机 分布式系统 问题:成本昂贵、能源消耗

(2)降低数据规模 通过引入近似/允许误差,将大数据变为小数据

优点:成本小,可与方案一结合

缺点:需要针对特定问题设计特定算法

2、 什么是大数据近似算法?

大数据近似算法:利用采样(sampling)、略图(sketch)、摘要(summary)等技术,引入可控误差,解决由数据规模扩大带来的时间/空间/通讯量效率问题。

大数据的特点:

大数据通常有冗余,有价值的数据量可能很小

统计量从宏观上能反映实际问题的特质

现有的数据采集系统和分析算法也不可避免的会产生误差

3、数据流模型为什么适合处理大数据?

数据流是一个由海量数据组成的数据序列

Single pass:每个数据最多访问一次

Small space:存储空间非常小

Small time:更新(插入删除)速度快

4、分布式模式为什么适合处理大数据?

针对MapReduce、Hadoop等分布式计算平台

输入数据分布在多个节点

每个节点基于其数据,独立计算摘要

将多个摘要在主节点合并,回答关于原始输入数据的查询

 

分布式模式的例子有哪些?

模拟传感器网络中的网络内聚合(In-network aggregation)

每个传感器独立观测数据(如湿度、温度、车流量等),并计算摘要

摘要通过通讯依次传输合并

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值