О научном редакторе русскоязычного издания
SLM Lab написана на Python с помощью фреймворка PyTorch, но читателям достаточно знать только Python.
крытым исходным кодом SLM Lab, призванную по
Артур Джулиани, ведущий инженер по машинному обучению, Unity Technologies
методы, основанные на стратегии, методы, основанные на полезности, и методы, основанные на модели среды
Функция полезности Qπ в уравнении (1.11) оценивает, насколько хороша или плоха пара «состояние — действие».
Это может быть записано как π(a | s) и означает вероятность действия a для данного состояния s. Действие, выбранное по стратегии, записывается как a∼π(s).
REINFORCE известен как алгоритмградиента стратегии
Процесс изменения параметров сети с целью минимизации потерь известен также как процесс обучения нейронной сети.
завершения среды носит название эпизода. Траектория — это последовательность прецедентов, или часть опыта, накопленного в течение эпизода, τ = (s0, a0, r0), (s1, a1, r1)…