Теоретический минимум по Big Data. Все что нужно знать о больших данных
Cегодня Big Data — это большой бизнес. Нашей жизнью управляет информация, и извлечение выгоды из нее становится центральным моментом в работе современных организаций. Не важно кто вы — деловой человек, работающий с аналитикой, начинающий программист или разработчик, — «Теоретический минимум по Big Data» позволит разобраться в основах новой и стремительно развивающейся отрасли обработки больших данных. Хотите узнать о больших данных и механизмах работы с ними? Каждому алгоритму посвящена отдельная глава, в которой не только объясняются основные принципы работы, но и даются примеры использования в реальных задачах. Большое количество иллюстраций и простые комментарии позволят легко разобраться в самых сложных аспектах Big Data. «Отличная визуализация концепций машинного обучения позволяет «нетехнарям» интуитивно понять сложные абстрактные понятия. Это лаконичная и точная выжимка содержит теоретический минимум информации, необходимый для первого знакомства с Big Data.» Этан Чен, автор курса CS 102: Big Data, Стэнфордский университет
Впечатления5
👍Советую
🎯Полезно
🚀Не оторваться
Это очень ёмкое, доступно и живо написанное введение в тему работы с данными. Заходит лучше, чем первая книга про Гарри Поттера в 11 лет.
👍Советую
🔮Мудро
💡Познавательно
🎯Полезно
💞Романтично
🌴В отпуск
😄Весело
🐼Мило
Для тех, кто только начинает изучать Data Science и Big Data, повторение — это ключ к успеху. Примеры, такие как анализ пищевой ценности, PageRank и другие алгоритмы, помогут расширить базовые знания в этой области.
Цитаты206
Если пропущено значение бинарного или категориального типа, его можно заменить самым типичным значением (модой) переменной

Более того, исключение элементов данных может привести к искаженным результатам в отношении отдельных групп. Например, коты могут менее охотно, чем другие, раскрывать информацию о количестве приобретаемых фруктов. Если мы удалим такие покупки, коты будут недостаточно представлены в итоговой выборке.
Кластеризация методом k-средних — это способ сгруппировать вместе похожие элементы данных. Число этих кластеров k должно быть указано заранее.
На полке36

1 785 книг
721

267 книг
544

22 книги
105

42 книги
41