БастыАудиоКомикстерБалаларға арналған
Павел Н.
Павел Н.дәйексөз келтірді1 ай бұрын
Что, если мы хотим учиться на более ранних ошибках? Или на чужих? Стратегические методы этого не позволяют. А вот нестратегическое, или офлайн-обучение (off-policy), позволяет как бы «учиться на чужих ошибках». Агент исследует политику, не связанную с полученным им опытом. Здесь применяются две политики: поведенческая (для генерации опыта и взаимодействия со средой) и целевая, которую мы формируем. SARSA — стратегический метод, а Q-обучение — нестратегический.
Грокаем глубокое обучение с подкреплением
Грокаем глубокое обучение с подкреплением
·
Мигель Моралес
Грокаем глубокое обучение с подкреплением
Мигель Моралесжәне т.б.
4.4K

Кіру не тіркелу пікір қалдыру үшін