- 博客(42)
- 收藏
- 关注
原创 day34打卡
当记录间隔较大时,显式同步次数减少,但每次同步可能等待更长的时间(因为 GPU 可能正在执行其他计算),但总体来看,由于隐式同步的存在,总同步时间变化不大。这表明剩余时长主要由固定开销(如隐式同步)决定,而记录操作的影响相对较小,因此没有呈现出线性关系。因此,整个训练过程的同步开销主要来自于这些必要的隐式同步,而记录损失(通过。在典型的训练循环中,即使没有显式地记录损失,每个迭代也可能存在隐式同步。)带来的显式同步只增加很少的额外时间,甚至可能因为与隐式同步重叠而几乎不增加开销。
2025-12-12 21:49:55
208
原创 day25打卡
如果这段可能出错的代码位于 try 语句块中,程序流程会寻找并跳转到匹配的 except 语句块(如果存在)来处理这个异常。当程序在运行时遇到意外情况(即异常),它不会直接崩溃,而是可以被设计成优雅地处理这些错误,并可能继续执行后续逻辑(如果设计允许)或以可控的方式结束。- except: 如果try块中的代码确实引发了特定类型的异常(或者任何异常,如果未指定类型),则执行此代码块。- else: (可选)如果try块中的代码没有发生任何异常,则执行此代码块。- try: 包含可能会引发异常的代码块。
2025-12-03 22:40:35
319
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅