大数据、数据流与移动云技术解析
1. 大数据概述
大数据具有几个显著特征,通常被概括为三个“V”,即大量(Volume)、高速(Velocity)、多样(Variety),此外还有持久性(Persistency)。大量指数据的规模极其庞大;高速要求对查询和数据分析请求能快速响应;多样体现了数据来源和格式的广泛范围;持久性表明数据具有长期价值,并非短暂存在。
大数据涵盖了广泛的数据类型,包括用户生成内容和机器生成数据。部分数据结构高度规整,像医疗领域的患者记录、保险理赔或抵押文件;另一些则是来自传感器的原始数据、日志文件或社交媒体产生的数据。
大数据对数据库系统的组织产生了影响。传统的关系型数据库难以满足大数据的某些需求,而NoSQL数据库更适合许多云应用。数据库模式是逻辑分组对象(如表、视图、存储过程等)的方式,可看作对象的容器。可以为用户分配对单个模式的登录权限,使其只能访问授权的对象。
过去几十年,数据库领域采用“写时模式”(schema - on - write)方法,即先定义模式,再写入数据,读取时按原模式返回。而“读时模式”(schema - on - read)则直接加载数据,然后使用用户定义的过滤器提取数据进行处理,具有以下优势:
- 数据常为不同角色和兴趣的个体共享,“读时模式”能以最适合查询的模式呈现数据。
- 合并多个数据集时,无需开发涵盖所有数据集的超级模式。
大数据还对计算产生了变革性影响。大数据工作负载虽具有多样性,但也有一些共同特点:
- 数据具有不可变性,如广泛使用的HDFS存储系统仅允许追加操作。
- MapReduce等作业具有确定性,可通过重新计算确保容错性。
超级会员免费看
订阅专栏 解锁全文
1350

被折叠的 条评论
为什么被折叠?



