Обучение с подкреплением проводится методом проб и ошибок. В задачах этого типа человек не маркирует данные, не собирает их и не участвует в разработке механизма их сбора. Цель RL — действие. Классический пример — агент для игры в Pong, который взаимодействует с эмулятором аркадного автомата Pong и учится, выполняя действия и наблюдая за их последствиями. Обученный агент должен уметь действовать таким образом, который позволит ему успешно играть в Pong.
Грокаем глубокое обучение с подкреплением
·
Мигель Моралес