Шаг 1 — нужно вычислить оценки релевантности между вектором слова station и каждым другим словом в предложении. Это наши оценки внимания. В качестве меры силы связи слов мы будем использовать простое скалярное произведение их векторов. Это очень эффективная с вычислительной точки зрения функция расстояния, широко применявшаяся для оценки силы связи векторных представлений слов задолго до появления архитектуры Transformer. На практике данные оценки также могут подвергаться масштабированию и обработке функцией softmax, но все это лишь детали реализации.
Шаг 2 — вычисляем сумму всех векторов слов в предложении, взвешенных нашими оценками релевантности. Слова, тесно связанные со словом station, будут вносить больший вклад в сумму (включая само слово station), а нерелевантные слова почти ничего не дадут. Получившийся вектор — новое представление для station: представление, учитывающее окружающий контекст. В частности, оно включает часть вектора train (поезд), уточняя, что, по сути, речь идет о train station («вокзал»).
Тот же процесс можно повторить для каждого слова в предложении и создать новую последовательность векторов, кодирующих это предложение