рии. Выборка на временном шаге t + 1 зависит от выборки на временном шаге t. Они коррелируют, и с этим ничего не поделаешь: это естественно для динамического обучения.
Но выборки еще и распределены неодинаково, так как зависят от политики, генерирующей действия. Как мы знаем, она со временем меняется, и нам это играет на руку, ведь мы хотим, чтобы политика улучшилась. Но вместе с ней будет улучшаться и распределение выборок (посещенных пар «состояние — действие»).