小知识点系列(十八) 本文(3万字) | 解读Pytorch优化器机制 | Optimizer | 各类优化器 | 各类学习率调整策略 |
梯度裁剪(Gradient Clipping)是一种防止梯度爆炸或梯度消失的优化技术,它可以在反向传播过程中对梯度进行缩放或截断,使其保持在一个合理的范围内。按照梯度的绝对值进行裁剪,即如果梯度的绝对值超过了一个阈值,就将其设置为该阈值的符号乘以该阈值。按照梯度的范数进行裁剪,即如果梯度的范数超过了一个阈值,就将其按比例缩小,使其范数等于该阈值。例如,如果阈值为1,那么梯度的范数就是1。在PyTorch中,可以使用和这两个函数来实现梯度裁剪,它们都是在梯度计算完成后,更新权重之前调用的。
平台注册入口