Вслед за итерацией политик мы рассмотрели еще один алгоритм — итерацию ценности. Как и предыдущий, он состоит из этапов оценки и улучшения политик. Но главное отличие в том, что этап оценки включает лишь одну итерацию. Иначе говоря, в результате оценки стратегии нельзя получить реальную функцию ценности.