Explain transfer learning — when to freeze vs fine-tune, and common failure modes

Question

Accepted Answer

Explain transfer learning. When do you freeze pretrained layers vs fine-tune them? What are common failure modes? Think about: what early vs late layers of a pretrained CNN or LLM actually learn. Why a model pretrained on ImageNet is useful for medical imaging even though they look nothing alike at the pixel level. What catastrophic forgetting is. Why learning rate matters so much more in fine-tuning than pretraining. **Why transfer learning works** Pretrained models encode general representatio