Басты
Аудио
Комикстер
Балаларға арналған
Мультижазылымды ресімдеу
Плюсті тексеріңіз
Кіру
Булат М.
дәйексөз келтірді
2 апта бұрын
Именно для этого и предназначен алгоритм оптимизации политик: он вычисляет функцию ценности действий на основе V-функции и MDP, после чего возвращает жадную версию Q-функции исходной политики
Грокаем глубокое обучение с подкреплением
·
Мигель Моралес
Грокаем глубокое обучение с подкреплением
Мигель Моралес
және т.б.
5K
Ұнайды
Комментарий жазу
Бөлісу
Кіру не тіркелу
пікір қалдыру үшін