при сравнении текстов разного типа мы не должны полагаться на частоту употребления некоторых распространенных служебных слов при установлении авторства: влияние типа текстов и их жанра может искажать результат.
Еще по теме разбора служебных слов Уиллерби упоминает такую меру, как показатель лексического разнообразия текста. Это лингвистический показатель богатства словарного запаса в некотором объеме текста. Он равен отношению числа разных слов в тексте к длине текста, измеренной в словах.
Из-за этой путаницы в терминологии я полагаю, что Уиллерби не понимает разницы между методами, процедурами и приемами. А о подходах он даже не заговаривает.
Было бы правильно начать с подхода к задаче. Простейшим подходом является субъективная оценка лингвистического своеобразия, то есть черт, специфически присущих некоторому автору (или кажущихся таковыми). У этого подхода есть свои области применения, но кто-то считает его «ненаучным» из-за того, что он плохо поддается численному выражению. Альтернативным подходом является количественный: любой из количественных методов может быть применен к любым лингвистическим аспектам. Три основные области количественного подхода связаны с измерением и статистическим анализом1) лексики текста, 2) служебных слов[36] и 3) моделированием языка, например, с помощью алгоритмов сжатия, нейросетей и так далее. В рамках каждого из этих подходов существует множество методов измерения и анализа.
Термин forensic linguistics («судебная лингвистика») впервые использовал в 1968 году Ян Свартвик. Я однажды спросил его о том, как он придумал это словосочетание, и он сказал, что в 60-х годах смотрел телесериал «Quincy». В каждом эпизоде звучало слово forensics («криминалистика»), и он подумал, что его можно вполне успешно применить в качестве прилагательного к слову «лингвистика». Это же словосочетание стало заглавием самой первой научной работы об этом предмете[35]. Однако широко этот термин стал употребляться лишь в 1994 году, когда начал издаваться первый академический журнал с этими словами в заголовке.
поросячью латынь» – шифр, ставший вновь известным благодаря мультсериалу «Симпсоны». Выучить его очень легко. Чтобы зашифровать слово, первую его букву следует переставить в конец, после чего прибавить суффикс -ay. Так, в слове say («говорить») первую s нужно переставить в конец, что дает ays, а затем прибавить -ay: aysay. Happy birthday («с днем рождения») на поросячьей латыни будет appyhay irthdaybay.