NumPy — для хранения массивов и выполнения сложных математических вычислений; • Pandas — для хранения, обработки и анализа больших наборов данных; • Matplotlib — для построения графиков данных; • Turi Create — для хранения и обработки данных, а также обучения моделей; • Scikit-Learn — для обучения моделей машинного обучения; • Keras (TensorFlow) — для обучения нейронных сетей.
ЧИСЛОВЫЕ ДАННЫЕ — это любой тип данных, в которых используются такие числа, как 4, 2,35 или –199. Примерами числовых данных могут служить цены, размеры или веса.
КАТЕГОРИАЛЬНЫЕ ДАННЫЕ — это любой тип данных, который использует категории или состояния, такие как «мужчина/женщина» или «кошка/собака/птица». Для этого типа данных у нас имеется конечный набор категорий, которые нужно связать с каждой из точек данных.
Лучший специалист по обработке данных — тот, кто способен объединить теоретические инструменты с собственными реальными знаниями для построения наилучших и наиболее эффективных моделей
Регуляризация — крайне важный метод уменьшения переобучения в моделях машинного обучения. Он состоит в добавлении меры сложности (слагаемого регуляризации) к функции ошибки во время обучения.
Полиномиальная регрессия — это общий случай линейной регрессии, в которой для моделирования данных мы используем кривые вместо прямых. Это особенно полезно, когда набор данных нелинеен
• Графически можно представить алгоритм линейной регрессии как попытку провести прямую как можно ближе к набору точек.
• Работа алгоритма линейной регрессии заключается в том, что он начинает со случайной прямой, а затем медленно приближает ее к каждой из неправильно классифицированных точек, пытаясь классифицировать их правильно