Данила С.: цитата из книги Грокаем глубокое обучение с подкреплением. рии. Выборка на временном...

.lazyload-placeholder { display: none; }

Данила С.цитирует8 дней назад

рии. Выборка на временном шаге t + 1 зависит от выборки на временном шаге t. Они коррелируют, и с этим ничего не поделаешь: это естественно для динамического обучения.

Но выборки еще и распределены неодинаково, так как зависят от политики, генерирующей действия. Как мы знаем, она со временем меняется, и нам это играет на руку, ведь мы хотим, чтобы политика улучшилась. Но вместе с ней будет улучшаться и распределение выборок (посещенных пар «состояние — действие»).

.lazyload-placeholder { display: none; }

Мигель Моралес

Грокаем глубокое обучение с подкреплением

2.5K
249
11

Нравится
Комментировать
Поделиться
Vkontakte
Пожаловаться

Войти или зарегистрироваться, чтобы комментировать