ПОЛИТЕХНИЧЕСКИЙ ВЕСТНИК
Серия Интелект, Инновации, Инвестиции

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

Г.М. Довудов

Аннотация: 

В статье представлено подробное описание алгоритма автоматического морфологического анализа таджикских слов. На основе разработанного алгоритма определяется часть речи слова на основе части речи корня и анализу присоединенных к нему префиксов и постфиксов. Для выполнения исследования была сформирована и применена база морфем, состоящая из 81 префикса, 65422 лексических основ и 2847 постфиксов. Аналитический процесс реализуется поэтапно и включает четыре стадии, представленные в виде алгоритмической блок-схемы. На основе разработанных алгоритмов создан программный комплекс автоматического морфологического анализа таджикских слов, логическая структура которого визуализирована диаграммой. С помощью программного комплекса был обработан большой набор литературных текстов. Установлено, что эффективность автоматического морфологического анализа и точность его результатов составляют 92,02%. Морфологический анализ и тегирование словоформ являются одним из ключевых этапов в процессе создания национальных текстовых корпусов языка. Полученные результаты широко используются при разработке национальных корпусов текстов а также систем автоматической проверки орфографии и других программ для обработки текстов на таджикском языке.
Ключевые слова: таджикский язык, морфологический анализ, префикс, основа, постфикс, блок-схема, экспертный морфологический анализ.