• Бинарные метки и пороговое значение бинарной классификации разделили исходный набор данных на четыре квадранта: истинно положительные, истинно отрицательные, ложноотрицательные и ложноположительные. Эти четыре параметра лежат в основе метрик эффективности, которые мы ввели.
• Отклик — способность модели максимизировать истинно положительные результаты. Положительная классификация каждого элемента гарантирует идеальный отклик, поскольку все правильные ответы будут отмечены, но при этом снижается точность.
• Точность — способность модели минимизировать ложные срабатывания. Если не выбрать ничего, то это гарантирует идеальную точность, поскольку неправильных ответов не было, но также свидетельствует о плохом отклике.
• Метрика F1 объединяет точность и полноту в единую метрику, которая описывает производительность модели. Мы используем метрику F1, чтобы определить, какое влияние изменения в алгоритме обучения или модели оказывают на производительность.
• Балансировка обучающего набора до равного количества положительных и отрицательных элементов во время обучения может привести к улучшению работы модели (определяемой как наличие положительной, увеличивающейся метрики F1).
• Дополнение данных — это взятие имеющихся реальных данных и такое их изменение, чтобы полученный дополненный элемент нетривиально отличался от исходного, но оставался репрезентативным для элементов того же класса. Это позволяет избежать переобучения в случаях, когда данные ограничены.
• К общим стратегиям дополнения данных относят изменение ориентации, зеркальное отражение, изменение масштаба, смещение и добавление шума. В зависимости от особенностей проекта, могут использоваться и другие, более конкретные стратегии.