Закон Ципфа гласит, что в некотором корпусе высказываний на естественном языке частотность любого слова обратно пропорциональна его позиции в таблице частотностей.
Вот эквиваленты основных блоков NLP в компиляторах языка программирования:
• токенизатор — сканер, лексический анализатор;
• словарь — лексикон;
• синтаксический анализатор — компилятор;
• токен, терм, слово или n-грамма — токен, символ или терминальный символ.
Токенизатор для компиляции языка программирования называют сканером (scanner) или лексическим анализатором (lexer).