大型基础设施上大数据应用部署方法
在大型基础设施上部署大数据应用(BDAs)时,为了有效管理其性能,需要一套包含四个步骤的方法:对BDAs进行分析、探索替代存储和处理环境、预测性能,以及最终优化性能。以下是对该方法的详细介绍。
1. 对BDAs进行分析
1.1 构建BDAs模型
应用空间A包含三个子空间:工作负载子空间W、数据子空间D和资源子空间R,即A = W ∪ D ∪ R。A中的点代表工作负载、数据和资源特征的可行组合。需要从W、D和R的维度对BDAs的行为进行建模,这些维度可能相互关联,重点是识别这些关联以及在大数据管理实际情况中出现的、对性能行为有显著影响的W、D和R实例组合。具体考虑的维度如下:
- 工作负载维度 :
1. 工作负载大小,以处理任务的数量和大小,以及/或者用户数量来衡量。
2. 工作负载类型,如批处理或迭代处理,以及CPU、I/O和内存密集程度。
3. 数据访问模式,例如均匀、顺序和不同偏斜程度的偏斜数据访问。
4. 任务结构和复杂性,特定的任务结构和复杂性,例如查询计划可能与数据访问模式和关联数据访问相关。
- 数据维度 :
1. 工作负载访问的数据集合大小。
2. 数据集合的复制程度和模式。
3. 数据的模式和数据依赖关系。
4. 数据类型,例如数据可以是“原始”格式(即字节流),或具有特定的非结构化或结构化格式(例如键值数据、RDF、关系型数据)。
- 资源维度 :考虑应用程序的部署方式,包括使用本地存储或分布式对象存储作
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



