Множество доступных датасетов можно найти с помощью приложения поиска датасетов25 от Google.
• Организация Common Crawl26 собирает данные из интернета в виде общедоступных архивов.
• Большую и постоянно пополняемую коллекцию датасетов для исследований в области МО также предлагает Википедия27.
В большинстве случаев хотя бы в одном из этих источников вы найдете датасет, схожий с нужным вам набором данных.
Что касается общедоступных данных, в настоящее время регулярно появляются новые источники данных и коллекции. В частности, я могу порекомендовать:
• «Архив интернета» (Internet archive)21 содержит множество датасетов, включая копии веб-сайтов, видеозаписи и книги.
• Раздел r/datasets22 социальной сети Reddit посвящен обмену ссылками на датасеты.
• Большую коллекцию данных, относящихся к разнообразным предметным областям, можно найти в разделе Datasets23 социальной сети Kaggle.
• Огромным источником датасетов для МО является репозиторий UCI Machine Learning Repository24.
sequence модели (из последовательности в последовательность), описанные в статье Суцкевера (Sutskever) и др. «Обучение sequence-to-sequence моделей с использованием нейронных сетей»(«Sequence to Sequence Learning with Neural Networks»13), были впервые предложены в 2014 году как решение для задач перевода с одного языка на другой,