高性能计算摘要

本文深入探讨了大数据计算中常见的工作负载类型、分布式计算框架的选择及其面临的挑战,详细阐述了从单线程到平台化解决计算难题的过程,并着重分析了并行化、分布化与平台化技术的核心问题与挑战。

插队<<< doubanclaim64ea944f8164f0e1

从计算任务的特质来看分为:

1、大计算量,小数据量

2、大数据量,计算相对简单

3、大数据量,大计算量

常见的工作负载有:

1、日志分析,PB级别

2、脱机分析,商业智能,重数据量,TB级别

3、调查式分析,重响应速度,100GB以下

4、金融计算,蒙特卡洛算法,大计算量

常见的分布式计算框架:

1、Hadoop,以分布式文件系统为核心的 Map reduce 框架,擅长超大数据量,高延迟,IO开销大

2、GridGain,以内存数据库为核心的分布式计算框架,擅长大计算量,低延迟,IO开销小

计算的结构有三种:

1、SMP

2、NUMA

3、分布式计算

延迟时间上升,换取计算总能力的上升。IO是主要制约因素。计算量问题首先是IO问题。

从解决问题尝试顺序来说有四层:

1、单线程

2、并行化

3、分布化

4、平台化

并行化的主要目的是突破单核的计算能力上限

分布化的主要目的是突破单机的计算能力上限

平台化的主要目的是突破单项目的能力上限

并行化的根本挑战:

1、任务的切分

2、任务的调度

重心在算法逻辑上

并行化的主要问题:

1、资源争抢

2、数据的隔离性

3、数据的可见性

4、饥饿,死锁,活锁

分布化的根本挑战:

1、计算节点之间的高延迟

2、分布化之后缺乏OS这样的管理者角色

在并行化解决了算法问题之后,分布化主要是为了克服物理限制

分布化的主要问题

1、更容易产生死锁和饥饿

2、拓扑管理

3、异构环境

4、容错机制

5、分布式负载均衡

6、存储能力共享

7、计算能力共享

8、代码的部署和准备

9、集群的监控和管理

平台化的根本挑战:业务问题,政治问题

平台化的主要问题:

1、统一的计算抽象

2、统一的数据抽象

3、异构数据的处理

4、业务优先级的保证

平台化的根本挑战

从实现层面看,有三层问题需要考虑:

1、计算流程

2、多机计算

3、单机计算

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值