Долгосрочную награду называют выгодой. Если известна выгода выполнения определенного действия в определенном состоянии, поиск оптимальной стратегии легко выполнить с помощью обучения с подкреплением. Например, чтобы решить, какое выполнить действие, выбирается действие с максимальной выгодой. Самое сложное, как можно догадаться, состоит в раскрытии значений этой выгоды.