Yatsko's Computational Linguistics Laboratory

    Частеречная разметка широко используется во многих лингвистических программах и системах с целью аннотирования электронных корпусов текстов, повышения эффективности информационного поиска, автоматической классификации текстовых документов, распознавания плагиата. Теггеры частей речи созданы для многих языков. Разработка такого теггера для русского языка - далеко не тривиальная задача. Русский относится к морфологически развитым языкам, и автоматическая обработка текстов на русском языке сталкивается с двумя основными проблемами: омонимией суффиксов, окончаний; беглостью и чередованием звуков. В существующих разработках этим проблемам обычно не уделяется достаточно внимания, и акцент делается на разработке контекстных правил и вероятностных методиках. 

    На данной странице представлены материалы разработки теггера частей речи для русского языка, подготовленные в ходе работы над проектом создания системы  автоматического анализа мнений покупателей о коммерческих продуктах. Проект поддержан грантом РФФИ № 16-07-00014. Особенность модуля теггера - функционирование на основе объёмного морфологического словаря, включающего около 66000 суфиксов, окончаний, лемм и словоформ. Использование словаря позволило сократить количество контекстных правил и разработать оригинальные способы распознавания частей речи.  Особое внимание уделяется решению указанных выше лингвистических  проблем. Алгоритм теггера описан в  http://docs.wixstatic.com/ugd/3a03b7_4d15216f4d224537b9d482924048cf4f.pdf 

На данном сайте можно скачать материалы проекта: морфологический словарь и эталонный текст проаннотированный вручную https://docs.zoho.com/file/4t44b6bbff2d334df4a8f9c6eedab95055ea0 .

Desktop Site