Y A V A  -  S T E M M E R

A Russian Stemmer

Стеммеры широко применяются в системах автоматической обработки текстовых документов с целью оптимизации информационного поиска, классификации, распознавания плагиата. В соответствии с общепринятой классификацией стеммеры делятся на алгоритмические и словарные. Первые функционируют на основе списка суффиксов и окончаний, а вторые -  на основе словаря основ слов (см. п. 20 в списке публикаций, а также русскую версию на РИНЦ http://javascript:load_article(17657263) )


ЯВА-стеммер - реализованный в виде отдельного приложения гибридный, пользовательско-ориентированный стеммер, функционирующий на основе оригинального алгоритма, разработанного В.А.Яцко. В процессе морфологического анализа сначала  стеммы слов распознаются на основе списка стем, затем токены с нераспознанными стеммами обрабатываются с помощью списка суффиксов и окончаний.

База данных стеммера включает три файла: файл со списком наиболее частотных стемм, файл со списком суффиксов и окончаний, файл со списком слов которые не стеммируются (стоп слов). Все три списка могут редактироваться пользователем. Это позволяет настроить стеммер и адаптировать его под особенности конкретного проекта.

Кроме списка стемм входного текста также выдаётся статистическая информация о количестве токенов, уникальных слов, уникальных стемм. Все результаты могут копироваться.

Поддерживается обработка русских текстов в формате .txt в кодировке UTF-8.

Распространяется как бесплатное ПО.  Доступно для скачивания  на странице закачек.