1、 处理大数据的两种思维模式是什么?
处理大数据的问题主要是如何扩展计算能力,扩展计算能力的方案主要有以下两种:
(1)超级计算机 分布式系统 问题:成本昂贵、能源消耗
(2)降低数据规模 通过引入近似/允许误差,将大数据变为小数据
优点:成本小,可与方案一结合
缺点:需要针对特定问题设计特定算法
2、 什么是大数据近似算法?
大数据近似算法:利用采样(sampling)、略图(sketch)、摘要(summary)等技术,引入可控误差,解决由数据规模扩大带来的时间/空间/通讯量效率问题。
大数据的特点:
大数据通常有冗余,有价值的数据量可能很小
统计量从宏观上能反映实际问题的特质
现有的数据采集系统和分析算法也不可避免的会产生误差
3、数据流模型为什么适合处理大数据?
数据流是一个由海量数据组成的数据序列
Single pass:每个数据最多访问一次
Small space:存储空间非常小
Small time:更新(插入删除)速度快
4、分布式模式为什么适合处理大数据?
针对MapReduce、Hadoop等分布式计算平台
输入数据分布在多个节点
每个节点基于其数据,独立计算摘要
将多个摘要在主节点合并,回答关于原始输入数据的查询
分布式模式的例子有哪些?
模拟传感器网络中的网络内聚合(In-network aggregation)
每个传感器独立观测数据(如湿度、温度、车流量等),并计算摘要
摘要通过通讯依次传输合并