К сожалению, базы данных изображений, используемые сообществом компьютерного зрения, были тогда невелики. База данных Caltech-101 содержала около 100 категорий объектов, но только по 30 примеров на категорию. Этого было слишком мало для обучения сверточной сети. На тот момент были предпочтительны более «классические» методы, использующие ручные экстракторы признаков, за которыми следует классификатор на основе SVM. Отсутствие достаточного количества примеров заставило нас сосредоточиться на неконтролируемом обучении. Идея состояла в том, чтобы предварительно обучить слои сверточной сети извлекать общие шаблоны без их привязки к конкретной задаче. В результате этого слой сети создает представление, из которого можно восстановить входные данные слоя. Эта технология называется «автоэнкодер», особенность ее заключается в минимизации количества включенных нейронов. С этой идеей мы изо всех сил пытались достичь производительности, сравнимой с обычными системами, однако нашлось одно приложение, для которого такой метод был особенно полезным: обнаружение пешеходов, необходимое автономным автомобилям. Дело в том, что обнаружение пешеходов было одним из немногих приложений, для которых у нас было достаточно данных. Статья появилась в июне 2013 г., а сами методы актуальны и сегодня