Павел Н.card.quoted5 күн бұрын
Жадность в пределе с бесконечным исследованием и теория стохастической аппроксимации

Жадность в пределе с бесконечным исследованием (greedy in the limit with infinite exploration, GLIE) — это набор требований, которым должен соответствовать алгоритм стратегического RL, такой как Монте-Карло или SARSA, чтобы гарантировать сходимость в оптимальной политике. Требования следующие:

• все пары «состояние — действие» должны исследоваться бесконечно часто;

• при схождении политика должна становиться жадной.
  • Комментарий жазу үшін кіру немесе тіркелу