убираем нерепрезентативные или имеющие систематическую ошибку обучающие данные.
• Этапы предварительной обработки обучающей выборки:
• перекодируем категориальные признаки;
• разбираемся с отсутствующими данными;
• выполняем нормализацию признаков (для некоторых ML-алгоритмов);
• выполняем проектирование признаков.
• Четыре полезные техники визуализации данных — мозаичные диаграммы, графики плотности, диаграммы размаха и диаграммы рассеяния: