ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

ОБ АЛГОРИТМЕ ФОРМИРОВАНИЯ ЧАСТНОГО МНОЖЕСТВА N-ГРАММ ИЗ ЭЛЕМЕНТОВ ТЕКСТА

М.Х. Гафуров, Иброхими Ю

Аннотация:

В данной статье рассматривается процесс анализа и обработки текстовой информации посредством формирования частного множества n-грамм (униграмм, биграмм и триграмм) из элементов текста. Данный метод имеет ключевое значение в таких областях, как обработка естественного языка (NLP), моделирование лингвистических задач и криптография для шифрования текстовых объектов. В статье представлены алгоритмы разделения этих элементов, в которых: униграммы - каждый символ текста как отдельная единица, биграммы и триграммы - делятся на группы по два или три символа соответственно. В случае нехватки символов для создания n-грамм в конце текстового объекта добавляется специальный символ «нулевого места» - (ø). Для практической реализации этих алгоритмов используется язык программирования C#, приводятся примеры его программного текста. Значительная часть работы посвящена созданию множество уникальных n-грамм. Отмечается, что наилучшим методом для этого является использование «хеш-множеств» (HashSet), поскольку он более эффективен с точки зрения скорости выполнения и простоты реализации.
Ключевые слова: текст, алгоритм, униграмма, биграмма, триграмма, частный уникальный алфавит.

Номи пурра:	Донишгоҳи техникии Тоҷикистон ба номи академик М.С. Осимӣ
Суроға:	734042, Ҷумҳурии Тоҷикистон, шаҳри Душанбе, кучаи академикҳо Раҷабовҳо 10
Тел:	+992 (37) 221-35-11
Факс:	+992 (37) 223-02-46
E-mail:	info@ttu.tj
Сомонаи расмӣ:	web.ttu.tj
Ректор	Давлатзода Қудрат Қамбар