Соответственно, тренировочные данные являются фундаментом машинного обучения. Качественные данные позволяют точно выявить тонкие нюансы и корреляции и построить на их основе высокоточную прогнозирующую систему. В то же время плохое качество обучающей выборки может свести на нет работу даже лучших ML-алгоритмов
Оценить вероятность ошибки в общем случае поможет более сложная методика, которая называется скользящим контролем, или перекрестной проверкой (CV — cross-validation). Она позволяет строго оценить на обучающей выборке точность работы с новыми данными. Существуют два способа скользящего контроля: метод отложенных данных и контроль по k-блокам.
Сбор и подготовка данных для систем с машинным обучением обычно влечет за собой их представление в виде таблицы, если изначально они имеют другую форму.