Предобученные представления векторов слов доступны для таких корпусов, как «Википедия», DBPedia, Twitter и Freebase181. Эти предобученные модели — отличные отправные пункты для ваших приложений, использующих векторы слов.
• Компания Google предоставляет предобученную модель Word2vec на основе статей из корпуса Google News на английском языке182.
• Facebook опубликовал свою модель слов под названием fastText для 294 языков183.
Но если в вашей предметной области используются специализированный словарь или семантические связи,
Обработка естественного языка в действии
·
Лейн Хобсон