Построение алгоритма k-NN
Выберите для вашего алгоритма число k — количество ближайших соседей. Важно сначала установить, сколько соседних точек данных в нашем тренировочном наборе мы хотим проанализировать, чтобы новая точка данных была успешно классифицирована. k-NN анализирует расстояние между нашей новой точкой данных и существующими точками вокруг нее и классифицирует новую точку данных в соответствии с категорией (здесь либо (1) страдающий диабетом, либо (2) здоровый), которая представлена наибольшим числом соседей. Например, если мы хотим классифицировать наши новые точки данных посредством анализа пяти ближайших точек данных, то мы определим значение k как 5[46].
Измерьте (евклидово) расстояние между новой точкой данных и всеми существующими точками. Раз мы сказали, что k равно 5, то нам нужно определить пять соседей, ближайших к нашей точке данных. Для этого мы должны сначала измерить расстояние от нашей новой точки данных до всех точек, которые у нас уже есть.