Данила С.цитирует2 месяца назад
Награда — это числовой сигнал, указывающий на качество перехода. Находясь в состоянии St, ваш агент выбирает действие At. В результате среда меняется, возвращает награду Rt + 1 и переходит в новое состояние St+1. Награда отображает положительность перехода, выполняемого на каждом временном шаге эпизода.

Выгода — это сумма всех наград, полученных за эпизод. Ваш агент получает награды Rt+1, Rt+2 и т.д., вплоть до RT, получаемую перед переходом в конечное состояние ST. Выгода часто определяется как дисконтированная сумма, где прио­ритет отдается наградам, полученным на ранних этапах эпизода (в зависимости от коэффициента дисконтирования, конечно). Строго говоря, дисконтированная сумма — это более общее определение выгоды, так как коэффициент дисконтирования, равный 1, превращает ее в обычную сумму.

Функция ценности — это ожидаемая выгода, где ожидание вычисляется как сумма всех возможных оценок, каждая из которых умножена на вероятность ее получения. Можете считать ее средним бесконечным числом выборок. Ожидаемая выгода похожа на выборку бесконечного числа экземпляров выгоды и вычисление их среднего значения. При вычислении выгоды после выбора действия ожидание отражает функцию ценности действий для пары «состояние — действие» Q(s, a). Если вы проигнорируете предпринятое действие и будете считать от состояния s, оно станет функцией значения состояния V(s).
  • Войти или зарегистрироваться, чтобы комментировать