Закон Ципфа гласит, что в некотором корпусе высказываний на естественном языке частотность любого слова обратно пропорциональна его позиции в таблице частотностей.
Вот эквиваленты основных блоков NLP в компиляторах языка программирования:
• токенизатор — сканер, лексический анализатор;
• словарь — лексикон;
• синтаксический анализатор — компилятор;
• токен, терм, слово или n-грамма — токен, символ или терминальный символ.
Токенизатор для компиляции языка программирования называют сканером (scanner) или лексическим анализатором (lexer).
Регулярные выражения используют специальный вид (класс) грамматики формального языка, называемый регулярной грамматикой.
Формальные языки — подмножество естественных языков.