представляю время, когда мы будем для роботов тем же, чем сейчас собаки являются для людей, и болею за машины.
Она лежит в основе так называемой временной задачи присваивания коэффициентов доверия — в определении того, какое состояние и/или действие привело к получению вознаграждения. Когда у задачи есть временная составляющая, а у действия — отложенные последствия, наградам сложно присвоить коэффициенты доверия.
Я провел оценку политики «осторожно+» и затем попробовал ее улучшить. Q-функции «осторожно» и «осторожно+» отличаются, но жадные политики в рамках этих функций идентичны. Проще говоря, на этот раз улучшения не произошло.
Отсутствие улучшения объясняется тем, что «осторожно+» — оптимальная политика в среде ЗО (когда гамма равна 0,99). Политика «осторожно» изначально была довольно хороша, поэтому нам понадобилось всего одно улучшение.