Different batch_size for train and valid data loaders

sgugger · November 18, 2018, 3:04am

Yes, you don’t compute the gradients for the validation set, so you have more GPU memory available. Usually it’s even bs*2 vor the validation set.