构建大数据应用:从基础到实践
1. 大数据平台特性
大数据应用的构建离不开强大的平台支持,常见的大数据平台具有以下特性:
- 可扩展平台 :能够处理PB级规模的数据,采用可扩展架构与联合数据存储相结合的方式,可容纳各种非结构化数据,如文档、邮件、音频、视频、图像等。这些平台设计为开放平台,每一层都可扩展,同时应具备高效的数据发现、数据沿袭和弹性搜索工具。
- 协作平台 :支持组织内部和跨组织的多用户无缝、安全地协作,同时分析相同的数据,涵盖从低级数据集成、导入管道定制到构建自定义用户界面等各个方面。集成后的数据可通过API作为对象访问,也可导出供其他框架和工具使用。
- 模型构建 :简单模型可作为构建更复杂模型的基础,利用各种内置的丰富可重用统计和数学运算符库来构建模型,使复杂分析成为模块化流程。
- 数据可视化 :提供交互式用户界面,以丰富的可视化形式(如表格、散点图和图表)提供所有感兴趣的集成数据的整体视图。这些可视化实时更新,确保用户随时看到最准确和最新的信息。
2. 大数据系统生命周期
大数据系统的构建遵循数据生命周期模型,主要包括以下阶段:
|阶段|描述|
|----|----|
|数据发现|从多个源系统摄取原始数据,利用大数据的力量进行数据整理和丰富,促进数据集的组合,以获得新的视角和交互式可视化分析。|
|数据质量|确保数据的质量和准确性,面临数据多样性、复杂性和安全性等挑战。|
|数据摄取|将原始数据从多个数据源添加到系统
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



