механизм обратной связи.
Такую обратную связь обеспечивает функция подкрепления, указывающая ИИ на то, насколько успешным был его подход. В цифровой среде человек не может эффективно давать обратную связь машине — ведь ИИ выполняет сотни, тысячи или миллиарды шагов в течение нескольких часов или дней. Поэтому функции вознаграждения автоматизируются — для этого разработчики определяют, каким образом имитируется реальность и как должно работать подкрепление. В идеале симулятор обеспечивает реалистичный опыт, а функция вознаграждения способствует принятию эффективных решений.
Искусственный разум и новая эра человечества
·
Генри Киссинджер