ratings = ratings.merge(movies)
ratings.head()
Поэтому нам нужно масштабировать матрицы весов ровно так, чтобы стандартное отклонение активаций оставалось равным 1. Мы можем вычислить точное подходящее значение математически, как это демонстрируют Ксавье Глорот и Йошуа Бенжио (Xavier Glorot, Yoshua Bengio) в своей работе Understanding the Difficulty of Training Deep Feedforward Neural Networks (https://oreil.ly/9tiTC) («Понимание сложности обучения глубоких нейронных сетей прямого распространения»)
Я совершенно уверена, что для решения любой проблемы сначала ее необходимо диагностировать и что мы до сих пор находимся именно на этой стадии.