Цитаты из книги автора Юлий Васильев Обработка естественного языка. Python и spaCy на практике

Читать отрывокОтрывок

О книге Цитаты16 Читают557 На полках

Maria Schwarzцитирует1 неделю назад

ADJ — прилагательное;

ADP — предлог;

ADV — наречие;

AUX — вспомогательный глагол;

CONJ — союз;

DET — определитель;

INTJ — междометие;

NOUN — существительное;

NUM — числительное;

Комментировать

Алексей Лавровцитирует2 месяца назад

Названия моделей создаются по следующему принципу: lang_type_genre_size. Lang обозначает язык. Type указывает на возможности модели (например, core означает, что речь идет об универсальной модели, имеющей словарь, синтаксис, сущности и векторы). Genre указывает на тип текстов, которые лежали в основе обучения данной модели: web («Википедия» или подобные ресурсы) или news (новостные статьи). Size обозначает размер модели: lg — большая, md — средняя и sm — маленькая. Чем больше модель, тем больше дискового пространства ей нужно.

Комментировать

Алексей Лавровцитирует2 месяца назад

Обычно узлы в нейронной сети сгруппированы по слоям: имеются входной и выходной слои, а между ними — один скрытый слой или более. Каждый узел в слое (за исключением выходного слоя) соединяется с каждым узлом из следующего слоя, и каждому соединению соответствует весовой коэффициент. Во время процесса обучения алгоритм подбирает веса таким образом, чтобы минимизировать ошибку предсказаний

Комментировать

Алексей Лавровцитирует2 месяца назад

Нейронная сеть (neural network) представляет собой набор алгоритмов предсказания. Она состоит из большого числа простых обрабатывающих элементов, подобных нейронам в мозге человека, которые взаимодействуют между собой путем отправки сигналов в соседние узлы и получения встречных сигналов.

Комментировать

Алексей Лавровцитирует2 месяца назад

распределение вероятностей (probability distribution) для конкретной случайной величины представляет собой таблицу соответствий значений этой величины вероятностям их выпадения (в эксперименте).

Комментировать

Алексей Лавровцитирует2 месяца назад

Математически определение семантического подобия между двумя словами сводится к вычислению косинусного коэффициента между соответствующими векторами, то есть вычислению косинуса угла между ними.

Комментировать

Евгения Н.цитирует1 год назад

сценария таким образом:
for token in doc:
print(token.head.text, token.dep_, token.text)

Комментировать

Евгения Н.цитирует1 год назад


import spacy

nlp = spacy.load('en')

doc = nlp(u'I am flying to Frisco')

print([w.text for w in doc])

Комментировать

Евгения Н.цитирует1 год назад

python -m spacy download en
Сокращение en указывает spaCy, что нужно скачать и установить по умолчанию самую подходящую модель для английского языка. «Самая подходящая» в этом случае — сгенерированная для указанного языка (в данном примере — английского), универсальная и требующая минимум дискового пространства.
Для скачивания конкретной модели необходимо указать ее название следующим образом:
$python -m spacy download en_core_web_md
После установки модель можно загрузить с помощью того же самого сокращенного названия, что и во время установки:
nlp = spacy.load('en')
Базовые операции NLP в библиотеке spaCy

Начнем с цепочки базовых операций NLP — конвейера обработки.

Комментировать

Евгения Н.цитирует1 год назад

сайта spaCy вы можете скачать, например, такие модели для английского языка: en_core_web_sm, en_core_web_md, en_core_web_lg и en_vectors_web_lg.

Комментировать