свои нюансы, в то время как другие видят что-то более обобщенное. Все это тоже отражается в наших датасетах.
Таблица 1.6. Популярные инструменты с графическим интерфейсом для обучения моделей
Например, для анализа изображения и звука обычно используются сверточные нейронные сети (CNN), а для обработки текста — рекуррентные нейронные сети (RNN) и сети с долгой краткосрочной памятью (LSTM).
Например, во время разработки датасета Microsoft COCO (Common Objects in Context — обычные объекты в контексте) требовалось примерно три секунды, чтобы присвоить метку с названием каждому объекту на изображении; примерно 30 секунд, чтобы определить ограничивающую рамку вокруг каждого объекта, и 79 секунд, чтобы обрисовать контур каждого объекта. Теперь
Сверточные сети — это «вышибалы» в мире глубокого обучения!
prediction = model.predict(img_preprocessed)
print(decode_predictions(prediction, top=3)[0])
def classify(img_path):
img = image.load_img(img_path, target_size=(224, 224))
model = tf.keras.applications.resnet50.ResNet50()
img_array = image.img_to_array(img)
img_batch = np.expand_dims(img_array, axis=0)
img_preprocessed = preprocess_input(img_batch)
ResNet-152 (2015), MobileNet (2017)
Классификация текста
BERT (2018), XLNet (2019)
Сегментация изображений
U-Net (2015), DeepLabv3 (2018)
Преобразование изображений
Pix2Pix (2017)
Распознавание объектов
YOLO9000 (2016), Mask R-CNN (2017)
Генерация речи
WaveNet (2016)
Примеры известных архитектур моделей
Министерство войны США (Department of War) было переименовано в Министерство обороны (Department of Defense), чтобы название было менее пугающим.