Оформить подписку
Войти
Артём
цитирует
3 месяца назад
Функция полезности Qπ в уравнении (1.11) оценивает, насколько хороша или плоха пара «состояние — действие».
Грессер Л.
,
Кенг В.
Глубокое обучение с подкреплением: теория и практика на языке Python
403
13
5
Войти или зарегистрироваться
, чтобы комментировать