БастыАудиоКомикстерБалаларға арналған
Павел Н.
Павел Н.дәйексөз келтірді1 ай бұрын
Q-обучение: действуем оптимально, даже если не хотим Алгоритм SARSA — это что-то вроде «разведки боем». Агент исследует ту же политику, которую он использует для получения опыта. Такой тип обучения называют стратегическим, или онлайн-обучением (on-policy).
Грокаем глубокое обучение с подкреплением
Грокаем глубокое обучение с подкреплением
·
Мигель Моралес
Грокаем глубокое обучение с подкреплением
Мигель Моралесжәне т.б.
4.4K

Кіру не тіркелу пікір қалдыру үшін