Эти стратегии нашли свое воплощение в наборе алгоритмов, разработанных в течение последних десятилетий как учеными, так и практиками в самых разных дисциплинах — от статистики, компьютерной
убираем нерепрезентативные или имеющие систематическую ошибку обучающие данные.
• Этапы предварительной обработки обучающей выборки:
• перекодируем категориальные признаки;
• разбираемся с отсутствующими данными;
• выполняем нормализацию признаков (для некоторых ML-алгоритмов);
• выполняем проектирование признаков.
• Четыре полезные техники визуализации данных — мозаичные диаграммы, графики плотности, диаграммы размаха и диаграммы рассеяния:
убираем нерепрезентативные или имеющие систематическую ошибку обучающие данные.
• Этапы предварительной обработки обучающей выборки:
• перекодируем категориальные признаки;
• разбираемся с отсутствующими данными;
• выполняем нормализацию признаков (для некоторых ML-алгоритмов);
• выполняем проектирование признаков.
• Четыре полезные техники визуализации данных — мозаичные диаграммы, графики плотности, диаграммы размаха и диаграммы рассеяния:
Этапы компиляции обучающей выборки:
• решаем, какие входные признаки включить в работу;
• находим способ получения непосредственных значений целевой переменной;
• определяем, какое количество обучающих данных является достаточным;