Павел Н.card.quotedалдыңгүні
Вслед за итерацией политик мы рассмотрели еще один алгоритм — итерацию ценности. Как и предыдущий, он состоит из этапов оценки и улучшения политик. Но главное отличие в том, что этап оценки включает лишь одну итерацию. Иначе говоря, в результате оценки стратегии нельзя получить реальную функцию ценности.
  • Комментарий жазу үшін кіру немесе тіркелу