Полная эксплорация. Если мы играем на слот-машинах по очереди, то получим $ 900.
A/B-тестирование. Если мы применим A/B-тестирование на первых 200 играх, а затем используем это знание для следующих 1800 игр, то сможем выиграть в среднем $ 976. Но здесь есть подводный камень: поскольку коэффициент отдачи обеих слот-машин схож, есть 8 %-ный шанс, что мы ошибочно сочтем наиболее выгодной слот-машину B.
Чтобы снизить риск такой ошибки, мы можем увеличить эксплорацию до 500 игр. Это уменьшит вероятность ошибки до 1 %, но наш выигрыш тоже упадет до $963.
Стратегия снижения эпсилона. Если мы используем стратегию снижения эпсилона, чтобы во время игр отдавать приоритет более щедрой слот-машине, то сможем выиграть в среднем 984 $ при 4 %-ной вероятности ошибки. Мы можем снизить риск ошибки путем увеличения доли эксплорации (значения эпсилона), но, как и прежде, это повлияло бы на наш выигрыш.
Полная эксплуатация. Если мы располагаем инсайдерской информацией о том, что слот-машина A возвращает больше, мы эксплуатируем ее с самого начала, рассчитывая в среднем на $ 1000. Но это (почти) недостижимо.
Теоретический минимум по Big Data. Все что нужно знать о больших данных
·
Анналин Ын