Грокаем глубокое обучение с подкреплением
Қосымшада ыңғайлырақҚосымшаны жүктеуге арналған QRRuStore · Samsung Galaxy Store
Huawei AppGallery · Xiaomi GetApps

автордың кітабынан сөз тіркестері  Грокаем глубокое обучение с подкреплением

Петр Носов
Петр Носовдәйексөз келтірді2 жыл бұрын
представляю время, когда мы будем для роботов тем же, чем сейчас собаки являются для людей, и болею за машины.
1 Ұнайды
Комментарий жазу
Анжелика К._laptop
Анжелика К._laptopдәйексөз келтірді2 жыл бұрын
Она лежит в основе так называемой временной задачи присваивания коэффициентов доверия — в определении того, какое состояние и/или действие привело к получению вознаграждения. Когда у задачи есть временная составляющая, а у действия — отложенные последствия, наградам сложно присвоить коэффициенты доверия.
1 Ұнайды
Комментарий жазу
Булат М.
Булат М.дәйексөз келтірді4 күн бұрын
случайными стратегиями исследования.
Комментарий жазу
Контролируемое обучение (supervised learning, SL)
Комментарий жазу
Булат М.
Булат М.дәйексөз келтірді1 апта бұрын
Здесь же мы рассмотрим сложности обучения на оценочной обратной связи не в последовательных, а в одинарных средах — «многоруких бандитах» (multi-armed bandits, MABs).
Комментарий жазу
Булат М.
Булат М.дәйексөз келтірді2 апта бұрын
Именно для этого и предназначен алгоритм оптимизации политик: он вычисляет функцию ценности действий на основе V-функции и MDP, после чего возвращает жадную версию Q-функции исходной политики
Комментарий жазу
Булат М.
Булат М.дәйексөз келтірді3 апта бұрын
Частично наблюдаемый марковский процесс принятия решений
Комментарий жазу
Булат М.
Булат М.дәйексөз келтірді3 апта бұрын
итеративной (последовательной) оценкой политик или просто оценкой политик.
Комментарий жазу
Булат М.
Булат М.дәйексөз келтірді3 апта бұрын
функция ценности действий, известная как Q-функция или Qπ(s, a):
Комментарий жазу
Булат М.
Булат М.дәйексөз келтірді4 апта бұрын
Политика — это функция, которая предписывает действия для заданного нетерминального состояния
Комментарий жазу