Павел Н.: Грокаем глубокое обучение с подкреплением кітабынан алынған дәйексөз. Вслед за итерацией политик...

.lazyload-placeholder { display: none; }

Павел Н.card.quotedалдыңгүні

Вслед за итерацией политик мы рассмотрели еще один алгоритм — итерацию ценности. Как и предыдущий, он состоит из этапов оценки и улучшения политик. Но главное отличие в том, что этап оценки включает лишь одну итерацию. Иначе говоря, в результате оценки стратегии нельзя получить реальную функцию ценности.

.lazyload-placeholder { display: none; }

Мигель Моралес

Грокаем глубокое обучение с подкреплением

4.2K
505
24

Ұнайды
Комментарий жазу
Бөлісу
Vkontakte
Шағымдану

Комментарий жазу үшін кіру немесе тіркелу