Жадность в пределе с бесконечным исследованием и теория стохастической аппроксимации
Жадность в пределе с бесконечным исследованием (greedy in the limit with infinite exploration, GLIE) — это набор требований, которым должен соответствовать алгоритм стратегического RL, такой как Монте-Карло или SARSA, чтобы гарантировать сходимость в оптимальной политике. Требования следующие:
• все пары «состояние — действие» должны исследоваться бесконечно часто;
• при схождении политика должна становиться жадной.