ПОЛИТЕХНИЧЕСКИЙ ВЕСТНИК
Серия Интелект, Инновации, Инвестиции

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

М.Х. Гафуров, Иброхими Ю

Аннотация: 

В данной статье рассматривается процесс анализа и обработки текстовой информации посредством формирования частного множества n-грамм (униграмм, биграмм и триграмм) из элементов текста. Данный метод имеет ключевое значение в таких областях, как обработка естественного языка (NLP), моделирование лингвистических задач и криптография для шифрования текстовых объектов. В статье представлены алгоритмы разделения этих элементов, в которых: униграммы - каждый символ текста как отдельная единица, биграммы и триграммы - делятся на группы по два или три символа соответственно. В случае нехватки символов для создания n-грамм в конце текстового объекта добавляется специальный символ «нулевого места» - (ø). Для практической реализации этих алгоритмов используется язык программирования C#, приводятся примеры его программного текста. Значительная часть работы посвящена созданию множество уникальных n-грамм. Отмечается, что наилучшим методом для этого является использование «хеш-множеств» (HashSet), поскольку он более эффективен с точки зрения скорости выполнения и простоты реализации.
Ключевые слова: текст, алгоритм, униграмма, биграмма, триграмма, частный уникальный алфавит.