Она лежит в основе так называемой временной задачи присваивания коэффициентов доверия — в определении того, какое состояние и/или действие привело к получению вознаграждения. Когда у задачи есть временная составляющая, а у действия — отложенные последствия, наградам сложно присвоить коэффициенты доверия.
рии. Выборка на временном шаге t + 1 зависит от выборки на временном шаге t. Они коррелируют, и с этим ничего не поделаешь: это естественно для динамического обучения.
Но выборки еще и распределены неодинаково, так как зависят от политики, генерирующей действия. Как мы знаем, она со временем меняется, и нам это играет на руку, ведь мы хотим, чтобы политика улучшилась. Но вместе с ней будет улучшаться и распределение выборок (посещенных пар «состояние — действие»).
Жадная политика. Эта политика всегда выбирает действия, которые, как ожидается, должны приносить самую высокую выгоду в каждом состоянии. Важно понимать, что жадная она по отношению к функции ценности. Именно поэтому я использовал фразу «как ожидается». Суть в том, что, когда кто-то говорит «жадная политика», вы должны спросить: «Жадная относительно чего?» Например, жадная политика по отношению к случайной функции ценности — довольно плохая политика.
Эпсилон-жадная политика. Эта политика зачастую выбирает действия с самой высокой ожидаемой выгодой в каждом состоянии. Как и вышеописанная политика, жадная она по отношению к определенной функции ценности. Всегда обращайте внимание на то, о какой именно функции ценности идет речь.
Оптимальная политика. Эта политика всегда выбирает действия, фактически приносящие самую высокую ожидаемую выгоду в каждом состоянии. Если жадная политика может быть оптимальной, то оптимальная политика всегда будет жадной. Надеюсь, вы сразу же переспросили: «Жадная относительно чего?» Хорошая работа! Оптимальная политика жадная по отношению к уникальной, оптимальной функции ценности.
Общее уравнение, которое лежит в основе большинства методов обучения, выглядит так: прогноз = прогноз + шаг × погрешность. Погрешность — это просто разность между полученной целью и ее текущей ценностью (цель – ценность). Два основных противоположных способа вычисления этих целей: метод Монте-Карло и временное разностное обучение.
Неинтерактивные задачи обучения. Это тип задач, в которых не нужно или нельзя взаимодействовать со средой. Обучение происходит на сгенерированных заранее данных. Цель этих задач — на основе предоставленных выборок найти политику или что-то другое. Например, обратное RL направлено на воссоздание функции вознаграждения на основе экспертных характеристик. При обучении на демонстрации агент пытается получить из этой воссозданной функции вознаграждения политику. Цель методов поведенческого клонирования (разновидность имитационного обучения) — переход от образцов экспертных характеристик к самим политикам с помощью контролируемого обучения.
Интерактивные задачи обучения. Это тип задач, где обучение и взаимодействие чередуются. У них есть интересная особенность: обучающийся управляет и процессом сбора данных. Оптимальное обучение на выборках и поиск выборок для оптимального обучения — это два разных процесса.
Награда — это числовой сигнал, указывающий на качество перехода. Находясь в состоянии St, ваш агент выбирает действие At. В результате среда меняется, возвращает награду Rt + 1 и переходит в новое состояние St+1. Награда отображает положительность перехода, выполняемого на каждом временном шаге эпизода.
Выгода — это сумма всех наград, полученных за эпизод. Ваш агент получает награды Rt+1, Rt+2 и т.д., вплоть до RT, получаемую перед переходом в конечное состояние ST. Выгода часто определяется как дисконтированная сумма, где приоритет отдается наградам, полученным на ранних этапах эпизода (в зависимости от коэффициента дисконтирования, конечно). Строго говоря, дисконтированная сумма — это более общее определение выгоды, так как коэффициент дисконтирования, равный 1, превращает ее в обычную сумму.
Функция ценности — это ожидаемая выгода, где ожидание вычисляется как сумма всех возможных оценок, каждая из которых умножена на вероятность ее получения. Можете считать ее средним бесконечным числом выборок. Ожидаемая выгода похожа на выборку бесконечного числа экземпляров выгоды и вычисление их среднего значения. При вычислении выгоды после выбора действия ожидание отражает функцию ценности действий для пары «состояние — действие» Q(s, a). Если вы проигнорируете предпринятое действие и будете считать от состояния s, оно станет функцией значения состояния V(s).
Истинная функция ценности. Это верная и совершенно точная функция, как будто описанная в пророчестве. Агент прогнозирует ее с помощью выборок. Истинная функция ценности поможет легко предсказать выгоду.
Фактическая выгода. Это полученная, а не прогнозируемая выгода. Агенты могут получать только фактическую выгоду, но они могут ее прогнозировать на основе ожидаемых функций ценности.
Прогнозируемая функция ценности или выгода. Это приблизительный расчет истинной функции ценности или фактической выгоды — аппроксимация, догадка, ожидание. Истинные функции ценности позволяют рассчитать выгоду, а прогнозируемые добавляют к этим значениям смещение.