В параметрических моделях соотношение между результатом и входными данными выражается через простые фиксированные уравнения. Данные применяются для определения оптимальных значений неизвестных частей уравнения. В эту категорию попадают: модель линейной регрессии, модель логистической регрессии и модель авторегрессии с лаговым оператором L.
Перефразируя часто цитируемое определение Тома Митчелла, скажем, что компьютерная программа обучается, если ее производительность при выполнении определенной задачи, выраженная в измеряемых единицах, увеличивается по мере накопления опыта.2
При этом естественным образом возникает вопрос: «Чем искусственный интеллект отличается от машинного обучения?». По этому вопросу нет единого мнения, но большинство соглашается с тем, что ML — это одна из форм AI, так как AI представляет собой куда более обширную область, включающую в числе прочего робототехнику, обработку лингвистической информации и системы машинного зрения.
псевдокод, иллюстрирующий преобразование категориальных признаков с илл. 2.5 в двоичные. Обратите внимание, что переменная categories принадлежит к особому типу NumPy (из библиотеки www.numpy.org), вследствие чего (data == cat) получает список булевских значений.
Листинг 2.1. Преобразование категориальных признаков в численные двоичные признаки
одним из свойств категориальных признаков является их неупорядоченность. Куда лучше преобразовать каждую категорию в отдельный двоичный признак, имеющий значение 1 для экземпляров, попадающих в категорию, и 0 для не попадающих. В результате каждый категориальный признак преобразуется в набор двоичных признаков, по одному на категорию. Сконструированные таким способом признаки иногда называ
. Включите все признаки, которые кажутся хоть как-то связанными с целевой переменной. Выполните обучение ML-модели. Если точность прогноза вас устраивает, останавливайтесь.
2. В противном случае расширьте набор, добавив туда признаки, связь которых с целевой переменной менее очевидна. Снова выполните обучение модели и оцените ее точность. Если она вас устраивает, останавливайтесь.
3. Если точность все еще неудовлетворительна, запустите для расширенного набора признаков алгоритм отбора (feature selection algorithm), чтобы выбрать оптимальное, сильнее всего влияющее на процесс прогнозирования подмножество.
добавляя в модель все, что приходит в голову, вы рискуете заглушить группу признаков, которая содержит хоть какой-то сигнал, подавляющим все шумом. От этого пострадает точность модели, так как она перестанет отличать реальные шаблоны от случайных флуктуаций. С другой стороны, тщательно выбирая только немногие признаки, гарантированно связанные с целевой переменной, можно оставить за бортом полезную информацию.