CPU: 多类型任务,低延迟。
GPU: 并行计算任务,高吞吐。
GPU线程执行,齐步走:
A100的Streaming Multiprocess(SM)构造:
一个SM里,有4个processing block。
L1 cache/Shared Memory,是SM内共享的。
INT32、FP32、FP64、TensorCore,这些是各自独立的计算单元。
访存 VS. 计算
CPU: 多类型任务,低延迟。
GPU: 并行计算任务,高吞吐。
GPU线程执行,齐步走:
A100的Streaming Multiprocess(SM)构造:
一个SM里,有4个processing block。
L1 cache/Shared Memory,是SM内共享的。
INT32、FP32、FP64、TensorCore,这些是各自独立的计算单元。
访存 VS. 计算