Например, рекомендуемой практикой считается нормализовать набор данных до нулевого среднего значения и единичного стандартного отклонения по каждому из каналов. Мы уже упоминали это в главе 4, но теперь, после главы 5, понимаем почему: при выборе функций активации, линейных около нуля (плюс-минус 1 или 2), ограничение данных тем же диапазоном повышает вероятность ненулевых градиентов нейронов, а значит, и ускоряет обучение.