Мы учимся, взаимодействуя с окружающей средой, и получаемые вознаграждения и наказания определяют наше поведение в будущем. Глубокое обучение с подкреплением привносит этот естественный процесс в искусственный интеллект и предполагает анализ результатов для выявления наиболее эффективных путей движения вперед. Агенты глубокого обучения с подкреплением могут способствовать успеху маркетинговых кампаний, прогнозировать рост акций и побеждать гроссмейстеров в Го и шахматах. Давайте научимся создавать системы глубокого обучения на примере увлекательных упражнений, сопровождаемых кодом на Python с подробными комментариями и понятными объяснениями. Вы увидите, как работают алгоритмы, и научитесь создавать собственных агентов глубокого обучения с подкреплением, используя оценочную обратную связь.
Она лежит в основе так называемой временной задачи присваивания коэффициентов доверия — в определении того, какое состояние и/или действие привело к получению вознаграждения. Когда у задачи есть временная составляющая, а у действия — отложенные последствия, наградам сложно присвоить коэффициенты доверия.
рии. Выборка на временном шаге t + 1 зависит от выборки на временном шаге t. Они коррелируют, и с этим ничего не поделаешь: это естественно для динамического обучения.
Но выборки еще и распределены неодинаково, так как зависят от политики, генерирующей действия. Как мы знаем, она со временем меняется, и нам это играет на руку, ведь мы хотим, чтобы политика улучшилась. Но вместе с ней будет улучшаться и распределение выборок (посещенных пар «состояние — действие»).