Мы учимся, взаимодействуя с окружающей средой, и получаемые вознаграждения и наказания определяют наше поведение в будущем. Глубокое обучение с подкреплением привносит этот естественный процесс в искусственный интеллект и предполагает анализ результатов для выявления наиболее эффективных путей движения вперед. Агенты глубокого обучения с подкреплением могут способствовать успеху маркетинговых кампаний, прогнозировать рост акций и побеждать гроссмейстеров в Го и шахматах. Давайте научимся создавать системы глубокого обучения на примере увлекательных упражнений, сопровождаемых кодом на Python с подробными комментариями и понятными объяснениями. Вы увидите, как работают алгоритмы, и научитесь создавать собственных агентов глубокого обучения с подкреплением, используя оценочную обратную связь.
Она лежит в основе так называемой временной задачи присваивания коэффициентов доверия — в определении того, какое состояние и/или действие привело к получению вознаграждения. Когда у задачи есть временная составляющая, а у действия — отложенные последствия, наградам сложно присвоить коэффициенты доверия.
Жадная политика. Эта политика всегда выбирает действия, которые, как ожидается, должны приносить самую высокую выгоду в каждом состоянии. Важно понимать, что жадная она по отношению к функции ценности. Именно поэтому я использовал фразу «как ожидается». Суть в том, что, когда кто-то говорит «жадная политика», вы должны спросить: «Жадная относительно чего?» Например, жадная политика по отношению к случайной функции ценности — довольно плохая политика.
Эпсилон-жадная политика. Эта политика зачастую выбирает действия с самой высокой ожидаемой выгодой в каждом состоянии. Как и вышеописанная политика, жадная она по отношению к определенной функции ценности. Всегда обращайте внимание на то, о какой именно функции ценности идет речь.
Оптимальная политика. Эта политика всегда выбирает действия, фактически приносящие самую высокую ожидаемую выгоду в каждом состоянии. Если жадная политика может быть оптимальной, то оптимальная политика всегда будет жадной. Надеюсь, вы сразу же переспросили: «Жадная относительно чего?» Хорошая работа! Оптимальная политика жадная по отношению к уникальной, оптимальной функции ценности.