В действительности сложные задачи на вероятность можно решать с помощью Python, не зная ни одного математического уравнения.
В главе 1 рассказывается, как вычислять вероятности с помощью простого кода Python.
Моя цель — всесторонне помочь вам выработать собственные навыки решения задач по аналитике.
Многие такие курсы делают упор на изучении отдельных алгоритмов, слабо развивая комплексные навыки решения задач.
В результате я подписался работать с различными проектами по анализу данных — от простого статистического анализа до сложного предиктивного моделирования.
консалтинговая деятельность в области обработки данных.
Все права защищены. Никакая часть данной книги не может быть воспроизведена в какой бы то ни было форме без письменного разрешения владельцев авторских прав.
• В главе 21 разбираются дополнительные техники машинного обучения, опирающиеся на линейные классификаторы с эффективным использованием памяти.
• В главе 22 речь пойдет о слабых местах ранее представленных методов обучения с учителем. Эти недостатки устраняются с помощью нелинейных классификаторов, а именно деревьев решений.
• В главе 23 приводится решение этого практического задания.
Все главы строятся на основе алгоритмов и библиотек, представленных ранее. В связи с этим рекомендуется прочесть книгу от начала до конца, чтобы исключить возможное непонимание. Если же вы уже знакомы с некоторыми темами, то можете смело их пропускать. Ну и в завершение я настоятельно рекомендую самостоятельно решить каждую задачу, прежде чем смотреть в решение. Это позволит вам получить максимум пользы от книги.
применяется библиотека отрисовки карт Cartopy.
• В главе 12 приводится решение.
Четвертое практическое задание посвящается обработке естественного языка при помощи масштабных численных вычислений.
• В главе 13 показано, как эффективно вычислять сходство между текстами при помощи матричного умножения. Для этого активно используются встроенные в NumPy матричные оптимизации.
• В главе 14 демонстрируется применение уменьшения размерности для повышения эффективности матричного анализа. Здесь параллельно с объяснением методов уменьшения размерности, содержащихся в библиотеке scikit-learn, рассматривается математическая теория.
• В главе 15 техники обработки естественного языка применяются к очень большому текстовому набору данных. Здесь же речь пойдет о лучших способах изучения и кластеризации текстовых данных.
отличить интересные паттерны данных от случайного шума. Кроме того, эта глава знакомит вас с опасностями неверного применения статистического вывода и способами избежать их.
• В главе 8 описывается библиотека Pandas, которую можно задействовать для предварительной обработки табличных данных перед статистическим анализом.
• В главе 9 приводится решение данного практического задания.
Третье практическое задание посвящено неуправляемой кластеризации географических данных.
• В главе 10 показано, как измерение центральности можно использовать для кластеризации данных по группам. Здесь также вводится библиотека scikit-learn, которая позволит выполнять кластеризацию более эффективно.
• В главе 11 разбирается тема извлечения и визуализации географических данных. Извлечение из текста выполняется с помощью библиотеки GeoNamesCache, а для визуализации
