最初来源:IBM Research
核心思想:GPU->CPU,用的是blocking;CPU->Disk,用的是异步不阻塞训练。
异步CPU->Disk步骤,有用到组播通信,会干扰训练中的AllReduce等组播通信。解决方法:更换了Communication Group。
最初来源:IBM Research
核心思想:GPU->CPU,用的是blocking;CPU->Disk,用的是异步不阻塞训练。
异步CPU->Disk步骤,有用到组播通信,会干扰训练中的AllReduce等组播通信。解决方法:更换了Communication Group。