Грокаем глубокое обучение с подкреплением
Қосымшада ыңғайлырақҚосымшаны жүктеуге арналған QRRuStore · Samsung Galaxy Store
Huawei AppGallery · Xiaomi GetApps

автордың кітабынан сөз тіркестері  Грокаем глубокое обучение с подкреплением

Петр Носов
Петр Носовдәйексөз келтірді2 жыл бұрын
представляю время, когда мы будем для роботов тем же, чем сейчас собаки являются для людей, и болею за машины.
1 Ұнайды
Комментарий жазу
Анжелика К._laptop
Анжелика К._laptopдәйексөз келтірді2 жыл бұрын
Она лежит в основе так называемой временной задачи присваивания коэффициентов доверия — в определении того, какое состояние и/или действие привело к получению вознаграждения. Когда у задачи есть временная составляющая, а у действия — отложенные последствия, наградам сложно присвоить коэффициенты доверия.
1 Ұнайды
Комментарий жазу
Булат М.
Булат М.дәйексөз келтірді2 апта бұрын
Есть много других способов применения затухания эпсилона: от простого 1/episode до затухающих синусоидальных волн.
Комментарий жазу
Булат М.
Булат М.дәйексөз келтірді3 апта бұрын
затухающей эпсилон-жадной стратегией
Комментарий жазу
Булат М.
Булат М.дәйексөз келтірді3 апта бұрын
Эпсилон-жадная стратегия:
Комментарий жазу
Булат М.
Булат М.дәйексөз келтірді3 апта бұрын
стратегией случайного исследования.
Комментарий жазу
Булат М.
Булат М.дәйексөз келтірді3 апта бұрын
жадной стратегией или стратегией чистой эксплуатации.
Комментарий жазу
Булат М.
Булат М.дәйексөз келтірді3 апта бұрын
Иначе говоря, сигнал вознаграждения — это распределение Бернулли.
Комментарий жазу
Булат М.
Булат М.дәйексөз келтірді3 апта бұрын
Третий подход — внедрение семейства стратегий исследования информационного пространства состояний.
Комментарий жазу
Булат М.
Булат М.дәйексөз келтірді3 апта бұрын
агент будет по-разному воспринимать исследованные и неисследованные состоя­ния.
Комментарий жазу