Машинное зрение — одна из самых обширных сфер применения глубокого обучения.
• Существует несколько общедоступных наборов изображений с описаниями; ко многим из них можно получить доступ через torchvision.
• Классы Dataset и DataLoader — это простые, но эффективные абстракции для загрузки наборов данных и выборки из них данных.
• Для задач классификации можно получить значения, которые могут восприниматься как вероятности с помощью многомерной логистической функции на выходе сети. Идеальная функция потерь для классификации в этом случае получается путем подачи выходного сигнала многомерной логистической функции на вход неотрицательной логарифмической функции правдоподобия. В PyTorch сочетание многомерной логистической функции и подобной функции потерь называется перекрестной энтропией.
• Ничто не мешает нам обрабатывать изображения как векторы значений пикселей с помощью полносвязной сети, подобно любым другим числовым данным. Однако при этом намного сложнее извлечь выгоду из пространственных взаимосвязей в данных.
• Создавать простые модели можно с помощью nn.Sequential.