Цитаты из книги авторов
Анналин Ын, Кеннет Су
Теоретический минимум по Big Data. Все что нужно знать о больших данных

Если пропущено значение бинарного или категориального типа, его можно заменить самым типичным значением (модой) переменной

1 Нравится

Комментировать

Андрей Алексеевцитирует3 года назад

Более того, исключение элементов данных может привести к искаженным результатам в отношении отдельных групп. Например, коты могут менее охотно, чем другие, раскрывать информацию о количестве приобретаемых фруктов. Если мы удалим такие покупки, коты будут недостаточно представлены в итоговой выборке.

1 Нравится

Комментировать

Александр Климовцитирует1 день назад

алгоритм слишком чувствителен и принимает случайные отклонения данных за закономерности. Эта проблема известна как переобучение (overfitting)

Комментировать

Александр Климовцитирует1 день назад

Вычисление. Пропущенные значения также могут быть вычислены

Комментировать

Александр Климовцитирует1 день назад

Удаление. В качестве последнего средства строки с неполными значениями могут быть удалены. Тем не менее

Комментировать

Александр Климовцитирует1 день назад

Неполные данные мешают анализу и при любой возможности с ними нужно разобраться одним из следующих способов:

• Приближение. Если пропущено значение бинарного или категориального типа

Комментировать

Александр Климовцитирует1 день назад

Есть четыре главных типа переменных. Чтобы убедиться, что к ним применимы выбранные алгоритмы, важно понимать разницу.

• Бинарная. Это простейший тип переменных только с двумя вариантами значения. В табл. 1 бинарная переменная показывает, брал ли покупатель рыбу.

• Категориальная. Если вариантов больше двух, информация может быть представлена категориальной переменной. В табл. 1 категориальная переменная описывает вид покупателя.

• Целочисленная. Такой тип используется, когда информация

Комментировать

Александр Климовцитирует1 день назад

табличное представление (табл. 1). Каждая строка представляет собой элемент данных с описанием отдельного наблюдения, а каждый столбец несет переменную для его описания. Переменные также называются атрибутами, признаками или размерностями

Комментировать

Александр Климовцитирует1 день назад

Комментировать

Александр Климовцитирует1 день назад

Такое исследование включает четыре ключевых шага. Сначала обрабатываются и подготавливаются данные. Потом составляется краткий перечень соответствующих исследованию алгоритмов. Затем для улучшения результатов настраиваются параметры этих

Комментировать

Цитаты из книги авторов Анналин Ын, Кеннет Су Теоретический минимум по Big Data. Все что нужно знать о больших данных

Цитаты из книги авторов Анналин Ын, Кеннет Су Теоретический минимум по Big Data. Все что нужно знать о больших данных

Цитаты из книги авторов
Анналин Ын, Кеннет Су
Теоретический минимум по Big Data. Все что нужно знать о больших данных

Цитаты из книги авторов
Анналин Ын, Кеннет Су
Теоретический минимум по Big Data. Все что нужно знать о больших данных