Вместо того чтобы создавать собственный токенизатор, мы воспользуемся популярной библиотекой с открытым исходным кодом nltk35, которая позволяет реализовать токенизацию двумя простыми действиями:
Создание приложений машинного обучения: от идеи к продукту
·
Эммануэль Амейзен