Грокаем глубокое обучение с подкреплением
Қосымшада ыңғайлырақҚосымшаны жүктеуге арналған QRRuStore · Samsung Galaxy Store
Huawei AppGallery · Xiaomi GetApps

автордың кітабынан сөз тіркестері  Грокаем глубокое обучение с подкреплением

Петр Носов
Петр Носовдәйексөз келтірді2 жыл бұрын
представляю время, когда мы будем для роботов тем же, чем сейчас собаки являются для людей, и болею за машины.
2 Ұнайды
Комментарий жазу
Анжелика К._laptop
Анжелика К._laptopдәйексөз келтірді2 жыл бұрын
Она лежит в основе так называемой временной задачи присваивания коэффициентов доверия — в определении того, какое состояние и/или действие привело к получению вознаграждения. Когда у задачи есть временная составляющая, а у действия — отложенные последствия, наградам сложно присвоить коэффициенты доверия.
1 Ұнайды
Комментарий жазу
Aleksa13 A.
Aleksa13 A.дәйексөз келтірді2 апта бұрын
Обучение с подкреплением проводится методом проб и ошибок. В задачах этого типа человек не маркирует данные, не собирает их и не участвует в разработке механизма их сбора. Цель RL — действие. Классический пример — агент для игры в Pong, который взаимодействует с эмулятором аркадного автомата Pong и учится, выполняя действия и наблюдая за их последствиями. Обученный агент должен уметь действовать таким образом, который позволит ему успешно играть в Pong.
Комментарий жазу
Aleksa13 A.
Aleksa13 A.дәйексөз келтірді2 апта бұрын
Неконтролируемое обучение (unsupervised learning, UL) подразумевает использование непромаркированных данных. Несмотря на то что данные больше не нуждаются в метках, методы по их сбору, которые использует компьютер, все еще должны разрабатываться человеком. Цель UL — сжатие. Классический пример — приложение для сегментации клиентов: человек собирает сведения о клиентах и учит модель объединять их в кластеры, которые сжимают информацию, раскрывая базовые закономерности.
Комментарий жазу
Aleksa13 A.
Aleksa13 A.дәйексөз келтірді2 апта бұрын
Контролируемое обучение (supervised learning, SL) предполагает использование промаркированных данных. В процессе SL человек решает, какие данные нужно собрать и как их пометить. Цель этого направления ML — обобщение. Классический пример — приложение для распознавания цифр, написанных от руки
Комментарий жазу
Aleksa13 A.
Aleksa13 A.дәйексөз келтірді2 апта бұрын
У ML есть три основных направления: контролируемое, неконтролируемое и обучение с подкреплением.
Комментарий жазу
Булат М.
Булат М.дәйексөз келтірді1 ай бұрын
Есть много других способов применения затухания эпсилона: от простого 1/episode до затухающих синусоидальных волн.
Комментарий жазу
Булат М.
Булат М.дәйексөз келтірді1 ай бұрын
затухающей эпсилон-жадной стратегией
Комментарий жазу
Булат М.
Булат М.дәйексөз келтірді1 ай бұрын
Эпсилон-жадная стратегия:
Комментарий жазу
Булат М.
Булат М.дәйексөз келтірді1 ай бұрын
стратегией случайного исследования.
Комментарий жазу