Она лежит в основе так называемой временной задачи присваивания коэффициентов доверия — в определении того, какое состояние и/или действие привело к получению вознаграждения. Когда у задачи есть временная составляющая, а у действия — отложенные последствия, наградам сложно присвоить коэффициенты доверия.
Жадная политика. Эта политика всегда выбирает действия, которые, как ожидается, должны приносить самую высокую выгоду в каждом состоянии. Важно понимать, что жадная она по отношению к функции ценности. Именно поэтому я использовал фразу «как ожидается». Суть в том, что, когда кто-то говорит «жадная политика», вы должны спросить: «Жадная относительно чего?» Например, жадная политика по отношению к случайной функции ценности — довольно плохая политика.
Эпсилон-жадная политика. Эта политика зачастую выбирает действия с самой высокой ожидаемой выгодой в каждом состоянии. Как и вышеописанная политика, жадная она по отношению к определенной функции ценности. Всегда обращайте внимание на то, о какой именно функции ценности идет речь.
Оптимальная политика. Эта политика всегда выбирает действия, фактически приносящие самую высокую ожидаемую выгоду в каждом состоянии. Если жадная политика может быть оптимальной, то оптимальная политика всегда будет жадной. Надеюсь, вы сразу же переспросили: «Жадная относительно чего?» Хорошая работа! Оптимальная политика жадная по отношению к уникальной, оптимальной функции ценности.
Общее уравнение, которое лежит в основе большинства методов обучения, выглядит так: прогноз = прогноз + шаг × погрешность. Погрешность — это просто разность между полученной целью и ее текущей ценностью (цель – ценность). Два основных противоположных способа вычисления этих целей: метод Монте-Карло и временное разностное обучение.
Неинтерактивные задачи обучения. Это тип задач, в которых не нужно или нельзя взаимодействовать со средой. Обучение происходит на сгенерированных заранее данных. Цель этих задач — на основе предоставленных выборок найти политику или что-то другое. Например, обратное RL направлено на воссоздание функции вознаграждения на основе экспертных характеристик. При обучении на демонстрации агент пытается получить из этой воссозданной функции вознаграждения политику. Цель методов поведенческого клонирования (разновидность имитационного обучения) — переход от образцов экспертных характеристик к самим политикам с помощью контролируемого обучения.
Интерактивные задачи обучения. Это тип задач, где обучение и взаимодействие чередуются. У них есть интересная особенность: обучающийся управляет и процессом сбора данных. Оптимальное обучение на выборках и поиск выборок для оптимального обучения — это два разных процесса.
Награда — это числовой сигнал, указывающий на качество перехода. Находясь в состоянии St, ваш агент выбирает действие At. В результате среда меняется, возвращает награду Rt + 1 и переходит в новое состояние St+1. Награда отображает положительность перехода, выполняемого на каждом временном шаге эпизода.
Выгода — это сумма всех наград, полученных за эпизод. Ваш агент получает награды Rt+1, Rt+2 и т.д., вплоть до RT, получаемую перед переходом в конечное состояние ST. Выгода часто определяется как дисконтированная сумма, где приоритет отдается наградам, полученным на ранних этапах эпизода (в зависимости от коэффициента дисконтирования, конечно). Строго говоря, дисконтированная сумма — это более общее определение выгоды, так как коэффициент дисконтирования, равный 1, превращает ее в обычную сумму.
Функция ценности — это ожидаемая выгода, где ожидание вычисляется как сумма всех возможных оценок, каждая из которых умножена на вероятность ее получения. Можете считать ее средним бесконечным числом выборок. Ожидаемая выгода похожа на выборку бесконечного числа экземпляров выгоды и вычисление их среднего значения. При вычислении выгоды после выбора действия ожидание отражает функцию ценности действий для пары «состояние — действие» Q(s, a). Если вы проигнорируете предпринятое действие и будете считать от состояния s, оно станет функцией значения состояния V(s).
Истинная функция ценности. Это верная и совершенно точная функция, как будто описанная в пророчестве. Агент прогнозирует ее с помощью выборок. Истинная функция ценности поможет легко предсказать выгоду.
Фактическая выгода. Это полученная, а не прогнозируемая выгода. Агенты могут получать только фактическую выгоду, но они могут ее прогнозировать на основе ожидаемых функций ценности.
Прогнозируемая функция ценности или выгода. Это приблизительный расчет истинной функции ценности или фактической выгоды — аппроксимация, догадка, ожидание. Истинные функции ценности позволяют рассчитать выгоду, а прогнозируемые добавляют к этим значениям смещение.
Награда. Это сигнал вознаграждения, который получает агент за один шаг: он видит состояние, выбирает действие и получает сигнал вознаграждения. Сигнал вознаграждения — это основа RL, но это не то, что агент пытается максимизировать! Он не пытается максимизировать награду! Вы должны понимать, что увеличение награды в рамках одного шага может отрицательно сказаться на долгосрочной выгоде.
Выгода. Это совокупность дисконтированных наград. Выгоду вычисляют от какого-либо состояния и, как правило, до конца эпизода. Ее еще называют общей, совокупной наградой или суммой наград. Выгода обычно дисконтируется, поэтому можно встретить и термины «общая дисконтированная награда», «совокупная дисконтированная награда» и «сумма дисконтированных наград». Но по сути это одно и то же: выгода отражает размер награды, полученной агентом за эпизод. Это более надежный показатель производительности, так как в ней есть долгосрочная последовательность — история наград в рамках отдельно взятого эпизода. Но и не это агент пытается максимизировать! В попытке получить максимально большую выгоду мы можем прийти к ненадежной политике, выгода которой может быть высокой в некоторых случаях, но далеко не во всех.
Функция ценности. Это ожидаемая выгода. Конечно же, нам хочется, чтобы выгода была высокой, но это наши ожидания (в целом). Если агент находится в среде с большим разбросом результатов или использует стохастическую политику, в этом нет ничего плохого. В конце концов, он пытается максимизировать общую ожидаемую дисконтированную награду: функцию ценности.