大数据与流处理系统的全面解析
1. 大数据实施的挑战与考量
在大数据实施过程中,存在诸多需要注意的陷阱,同时也有相应的考量因素。
1.1 大数据实施的陷阱
- 数据存储位置不明 :云数据中心分布在不同国家甚至大洲,组织需确认数据最终存储地,因为监管法律可能禁止数据存储在其他国家或大洲。
- 未理解与云提供商的服务级别协议(SLA) :应与云提供商签署明确的 SLA,描述性能、备份与恢复、可用性和支持等方面。
- 不了解如何将数据传输到云 :组织需确保云提供商具备安全导入/导出数据的数据管理能力。
- 不了解云可扩展时所需的处理配置文件 :云模型是按需付费,但由于缺乏对所需处理资源、处理配置文件的了解,尤其是应用程序和查询设计与实现不佳,企业容易为不必要的计算资源付费。采用“为性能而设计”的方法可以避免许多应用系统因性能不佳而延迟实施。
1.2 大数据实施的考量
- 了解在云中运行的服务的使用和性能配置文件,理解处理需求的高峰和低谷。
- 在设计和构建应用程序时,应尽早确定并考虑性能要求。
2. 大数据实施的架构与处理框架
2.1 大数据架构
典型的大数据架构基于 Apache Hadoop 框架,包含以下关键部分:
- 数据源 :数据可来自多个
超级会员免费看
订阅专栏 解锁全文
781

被折叠的 条评论
为什么被折叠?



