Павел Н.card.quoted3 күн бұрын
При вычислении выгоды после выбора действия ожидание отражает функцию ценности действий для пары «состояние — действие» Q(s, a). Если вы проигнорируете предпринятое действие и будете считать от состояния s, оно станет функцией значения состояния V(s).
  • Комментарий жазу үшін кіру немесе тіркелу