— это векторы, кодирующие свойства, такие как позиции и скорости. В Atari Breakout состояние — это изображение экрана игры. В CartPole и Atari Breakout действия являются одиночными
Глубокое обучение с подкреплением: теория и практика на языке Python
·
Ван Лун Кенг