Построение классификации случайного леса
Выберите количество деревьев, которые хотите создать. Для многих программ параметр по умолчанию — десять деревьев. Число, которое вы в конечном итоге выберете, будет зависеть от контекста. Меньшее количество деревьев может обусловить менее точные прогнозы. И наоборот, в большинстве случаев можно использовать любое количество деревьев, поэтому нет необходимости беспокоиться о чрезмерно близкой подгонке алгоритма к данным.
Установите классификатор в тренировочный набор. Внедрение классификатора случайного леса в тренировочный набор поможет вам в будущем научиться составлять прогнозы для новых точек данных. Затем мы можем сравнить эти прогнозы с фактическими результатами в нашем массиве данных, чтобы увидеть, насколько точен классификатор.
Алгоритм случайного леса случайно выберет N подмножеств из вашего массива данных, где N — количество деревьев, указанное для параметра в шаге 1. Эти подмножества могут перекрываться; однако никакие два множества не будут идентичными.
После выбора подмножеств каждое из них будет использоваться в качестве исходного массива данных для построения уникального дерева классификации. Таким образом, каждое дерево классификации видит только свое подмножество данных и не имеет представления о том, что фактический массив данных шире. Подобный подход обеспечивает разнообразие при генерации деревьев — именно отсюда в алгоритме случайного леса возникает «сила толпы».
Исходя из этой логики, чтобы помочь алгоритму делать более точные прогнозы, мы можем просто добавить информацию в наш массив данных — чем больше данных в нашем тренировочном наборе, тем более точным будет прогноз алгоритма.
Дерево решений или случайный лес?
Хотя алгоритм случайного леса можно рассматривать как «обновление» деревьев решений, оба метода имеют свои преимущества в зависимости от поставленной задачи. Для проектов, использующих относительно мало данных, применение алгоритма случайного леса не даст оптимальных результатов, так как он будет излишне подразделять данные. В этих сценариях более эффективно дерево решений, которое обеспечивает быструю и простую интерпретацию данных. Но если вы работаете с большим массивом данных, более точный прогноз даст случайный лес, но его интерпретируемость окажется ниже[45].