В «Скандале в Богемии» Шерлок Холмс говорит доктору Ватсону: «Теоретизировать, не имея данных, опасно. Незаметно для себя человек начинает подтасовывать факты, чтобы подогнать их к своей теории, вместо того чтобы подтвердить факты теорией».
основное допущение этого алгоритма: k-NN допускает, что даже неизвестные особенности пациентов будут схожи при условии, что схожи некоторые известные особенности
Закон Мура — это закон прогнозирования. Предложенный соучредителем Intel Гордоном Муром в 1965 г., он в первую очередь касался ожидаемого со временем увеличения числа транзисторов (устройств, используемых для управления электрическим током) на квадратный дюйм в интегральных схемах (например, компьютерных микросхемах, микропроцессорах, материнских платах). Было замечено, что число этих транзисторов примерно удваивается каждые два года, и закон утверждал, что тенденция будет продолжаться. На сегодняшний день это подтвердилось[8].
Чтобы можно было считать массив данных большими данными, должно быть выполнено хотя бы одно из трех условий:
Объем данных — то есть размер массива данных (например, количество строк) — должен исчисляться миллиардами. Скорость, то есть то, как быстро собираются данные (например, потоковое видео в интернете), предполагает, что скорость генерируемых данных слишком высока для адекватной обработки с использованием обычных методов. Разнообразие. Это подразумевает либо разнородность типов информации, содержащейся в массиве данных, таком как текст, видео, аудио или файлы изображений (известные как неструктурированные данные), либо таблицы, содержащие значительное количество столбцов, которые представляют разные свойства данных.
То, что привело вас в кино, было в меньшей степени желанием увидеть фильм и в гораздо большей — мощной смесью основанных на данных признаков, которые выделили вас в качестве вероятного зрителя, прежде чем вы сами поняли, что хотите посмотреть фильм.
Вместо того чтобы привязывать нужные демографические показатели аудитории к новому фильму или телевизионному сериалу, кинокомпании теперь находят способы использовать данные об аудитории, чтобы принимать обоснованные решения о предлагаемых публике развлечениях.