БастыАудиоКомикстерБалаларға арналған
Булат М.
Булат М.дәйексөз келтірді2 апта бұрын
Именно для этого и предназначен алгоритм оптимизации политик: он вычисляет функцию ценности действий на основе V-функции и MDP, после чего возвращает жадную версию Q-функции исходной политики
Грокаем глубокое обучение с подкреплением
Грокаем глубокое обучение с подкреплением
·
Мигель Моралес
Грокаем глубокое обучение с подкреплением
Мигель Моралесжәне т.б.
5K

Кіру не тіркелу пікір қалдыру үшін