М.Ҳ. Ғафуров, Иброҳими Ю
Аннотатсия:
Дар мақолаи мазкур раванди таҳлил ва коркарди иттилооти матнӣ тавассути таҳияи маҷмуи хусусии n- граммаҳо (униграммаҳо, биграммаҳо ва триграммаҳо) аз унсурҳои матн шарҳ дода шудааст. Усули мазкур дар соҳаҳои коркарди додаҳои забони табиӣ (NLP), моделсозии масъалаҳои соҳаи лингвистика ва дар самти криптография барои бадалсозии объектҳои матнӣ аҳамияти калидӣ дорад. Дар мақола алгоритмҳои ҷудокунии ин унсурҳо пешниҳод карда шудаанд, ки дар онҳо: униграммаҳо - ҳар як аломати матн ҳамчун воҳиди алоҳида, биграммаҳо ва триграммаҳо - мутаносибан ба гурӯҳҳои ду ѐ сеҳарфа тақсим кардани матн мебошад. Дар ҳолати норасоии аломатҳо дар охири объекти матнӣ символи махсуси «ҷои ҳеҷ» - (ø) илова карда мешавад. Барои татбиқи амалии ин алгоритмҳо забони барномасозии C# истифода шуда, намунаҳои матни барномаи он оварда шудаанд. Қисмати муҳими кор ба таҳияи маҷмуи хусусии n-граммаҳои беназир бахшида шудааст. Қайд карда мешавад, ки усули беҳтарин барои ин кор истифодаи «хеш-маҷмуъҳо» (HashSet) мебошад, зеро он аз лиҳози суръати иҷро ва соддагии татбиқ самараноктар аст.
Калидвожаҳо: матн, алгоритм, униграмма, биграмма, триграмма, алифбои беназири хусусӣ.

