What is gradient clipping, and when should you use it?

Question

Accepted Answer

Explain gradient clipping. What problem does it solve, and how can it hide deeper training issues? Think about: exploding gradients, global norm clipping, per-parameter clipping, learning rate, mixed precision, and why clipping is common in RNNs and transformers. **The problem** Sometimes a minibatch produces an unusually large gradient. If the optimizer applies it directly, parameters can jump far enough to destabilize training. Loss may spike or become NaN. Gradient clipping limits update size