Максим С.card.quoted18 күн бұрын
Долгосрочную награду называют выгодой. Если известна выгода выполнения определенного действия в определенном состоянии, поиск оптимальной стратегии легко выполнить с помощью обучения с подкреплением. Например, чтобы решить, какое выполнить действие, выбирается действие с максимальной выгодой. Самое сложное, как можно догадаться, состоит в раскрытии значений этой выгоды.
  • Комментарий жазу үшін кіру немесе тіркелу