Тимур Мухамедрахимовцитирует5 месяцев назад
Поэтому нам нужно масштабировать матрицы весов ровно так, чтобы стандартное отклонение активаций оставалось равным 1. Мы можем вычислить точное подходящее значение математически, как это демонстрируют Ксавье Глорот и Йошуа Бенжио (Xavier Glorot, Yoshua Bengio) в своей работе Understanding the Difficulty of Training Deep Feedforward Neural Networks (https://oreil.ly/9tiTC) («Понимание сложности обучения глубоких нейронных сетей прямого распространения»)

Масштабирование весов

  • Войти или зарегистрироваться, чтобы комментировать