Размер шага градиента очень важен: если он слишком мал, то хотя в конечном итоге минимум найдется, это отнимет много времени, потому что с каждым шагом расстояние сокращается незначительно. Если шаг слишком большой, то рискуем превысить минимум и перебраться на другую сторону. Следовательно, постоянная e должна быть такой, чтобы изменение параметров не привело нас со склона горы, где мы сейчас стоим, на противоположный, перебросив через гребень.
Повторяем операции, пока не окажемся на дне долины. Другими словами, до тех пор, пока стоимость обучения не перестанет уменьшаться.