Yatsko's Computational Linguistics Laboratory

Информационные технологии в лингвистике

(материалы для студентов 2 курса ХГУ им. Н.Ф. Катанова)


Экзаменационные вопросы

В каждом экзаменационном билете – два вопроса: теоретический и практический. Практический вопрос предусматривает описание методики выполнения практических заданий, которые давались студентами на занятиях. Материалы практических занятий – на https://yadi.sk/d/69Yg2-H9F66pXg Упоминаемые далее файлы и программное обеспечение находятся в этих материалах. Журнал Научно-техническая информация есть в научном читальном зале ХГУ им. Н.Ф.Катанова.



1. Подходы к интерпретации информации.


План ответа

Интерпретация информации в философии; атрибутивный, функциональный, антропологический подходы. Примеры, иллюстрирующие функциональный и антропологический подходы. Интерпретация информации в семиотике; семантический треугольник Огдена-Ричардса (Charles Ogden, Ivor Richards), понятия денотата, сигнификата, интенсионала и экстенсионала. Примеры, иллюстрирующие понятие экстенсионала. 


2. Вероятностный подход к интерпретации информации 

План ответа

 Теорема Хартли-Шеннона, понятие энтропии и случайного события, формула Хартли (Ralph Hartley) для подсчёта количества информации. Примеры случайных и достоверных событий. Понятие бита как единицы измерения количества информации.


Задания и вопросы


1.1. Подсчитайте количество информации, приходящейся на один символ алфавита, состоящего из 1) 27 символов, 2) 34 символов. Опишите методику подсчёта.

1.2. Подсчитайте количество информации в книге, состоящей из 80 страниц, при условии, что на каждой странице 1500 символов, а в алфавите 27 символов. Опишите методику подсчёта.

1.3. Опишите сущность познавательной деятельности в понятиях антропологического подхода к интерпретации информации.

1.4. Почему функциональный подход к интерпретации информации актуален в наше время?

1.5. Опишите семантический треугольник.

1.6. Чем достоверные события отличаются от случайных?

1.7. Почему формулу Хартли нельзя применить к лингвистическому материалу?

1.8. Просмотрите результаты вычислений логарифмов. Каково значение логарифмирования?


Источники для подготовки (для ответа на первые два вопроса)

- Сапрыкин М.Ю., Сапрыкина Н.А. Анализ понятия информации с позиций объектноориентированного подхода // Вестник евразийской науки. 2016. №2 (33). URL: https://cyberleninka.ru/article/n/analiz-ponyatiya-informatsiya-s-pozitsii-obektnoorientirovannogo-podhoda.

-  Как измеряется количество информации? URL: http://book.kbsu.ru/theory/chapter1/1_1_5.html

- Яцко В.А. История вычислительной техники и информатики. С. 33-35. (Есть в библиотеке ХГУ)

__________________________________________________________________________________________


3. Вероятностный подход к интерпретации информации. Формула Шеннона.


                                                     План ответа 


Описание формулы Шеннона (Claude Shannon) . Величина P(i),  вычисление, свойства. Интерпретация i-ой величины при анализе лингвистического материала.  Пример вычисления P(i) величины на лингвистческом материале. Алгоритм вычислений по формуле. Значение формулы для решения лингвистических задач. 


Задания и вопросы


3.1. Из колоды, в которой 36 карт, достали карту красной масти. Какова вероятность того, что следующая карта будет красной масти?

3.2. В некотором тексте термин w1 встречается 126 раз, а термин w2 - 25 раз. Чему будет равно P(w1) и P(w2)?

3.3. Подсчитайте количество информации на один символ русского алфавита (см  таблицу 1)  по формуле Хартли (величина I1) по формуле Шеннона (величина I2). Сделайте запись, поясняющую,  насколько одна величина больше другой и почему. 

3.4.1. Примените формулу Шеннона для английского алфавита (Таблица 2). Найдите величину I3. Сопоставьте с величиной I2. Сделайте запись, объясняющую, какая величина больше и почему.

3.4.2. Выполните тоже самое для английского алфавита (Таблица 2). Найдите величину I4. Сопоставьте с величиной I3. Сделайте запись, объясняющую, какая величина больше и почему.

Таблица 1

i

Символ

P(i)

1

_(пробел)

0,17

2

О

0,071

3

Е

0,07

4

Ё

0,07

5

А

0,052

6

И

0,051

7

T

0,05

8

H

0,05

9

C

0,043

10

P

0,04

11

B

0,035

12

Л

0,033

13

К

0,025

14

М

0,022

15

Д

0,022

16

П

0,021

17

У

0,02

18

Я

0,017

19

Ы

0,016

20

З

0,015

21

Ь

0,014

22

Ъ

0,013

23

Б

0,013

24

Г

0,011

25

Ч

0,011

26

Й

0,01

27

Х

0,008

28

Ж

0,006

29

Ю

0,005

30

Ш

0,004

31

Ц

0,004

32

Щ

0,003

33

Э

0,003

34

Ф

0,002

Таблица 2.

_ 0,14
E 0,11702
A 0,08167
O 0,07507
S 0,06327
N 0,05749
T 0,05139
I 0,04345
H 0,04094
L 0,04025
R 0,03987
D 0,03353
U 0,02758
W 0,0244
M 0,02406
F 0,02228
C 0,02186
G 0,02015
Y 0,01974
P 0,01929
B 0,01492
V 0,00978
K 0,00772
J 0,00153
X 0,0014
Q 0,00095
Z 0,00039

3.5. Подсчитайте количество информации (величина I5), приходящееся на один символ в Text 1 по формуле Шэннона. Для того, чтобы найти частотности воспользуйтесь сервисом https://www.mtholyoke.edu/courses/quenell/s2003/ma139/js/count.html 
Для подсчёта количества пробелов вставьте текст в документ MS Word и найдите разность между количеством знаков с пробелами и без пробелов.

Сопоставьте величины  I5 и I4. Сделайте запись, поясняющую, насколько одна величина больше другой и почему.  

В письменном виде ответьте на вопрос: Для решения каких лингвистических задач может применяться такой анализ? (Подсказка - Conan Doyle)


Text 1

Among other public buildings in a certain town, which for many reasons it will be prudent to refrain from mentioning, and to
which I will assign no fictitious name, there is one anciently common to most towns, great or small: to wit, a workhouse; and
in this workhouse was born; on a day and date which I need not trouble myself to repeat, inasmuch as it can be of no possible
consequence to the reader, in this stage of the business at all events; the item of mortality whose name is prefixed to the head
of this chapter.

For a long time after it was ushered into this world of sorrow and trouble, by the parish surgeon, it remained a matter of
considerable doubt whether the child would survive to bear any name at all; in which case it is somewhat more than probable that
these memoirs would never have appeared; or, if they had, that being comprised within a couple of pages, they would have
possessed the inestimable merit of being the most concise and faithful specimen of biography, extant in the literature of any
age or country. Although I am not disposed to maintain that the being born in a
workhouse, is in itself the most fortunate and enviable circumstance that can possibly befall a human being, I do mean to
say that in this particular instance, it was the best thing for Oliver Twist that could by possibility have occurred.  The fact
is, that there was considerable difficulty in inducing Oliver to take upon himself the office of respiration,-- a troublesome
practice, but one which custom has rendered necessary to our easy existence; and for some time he lay gasping on a little flock
mattress, rather unequally poised between this world and the next: the balance being decidedly in favour of the latter.  Now,
if, during this brief period, Oliver had been surrounded by careful grandmothers, anxious aunts, experienced nurses, and
doctors of profound wisdom, he would most inevitably and indubitably have been killed in no time.  There being nobody by,
however, but a pauper old woman, who was rendered rather misty by an unwonted allowance of beer; and a parish surgeon who did such
matters by contract; Oliver and Nature fought out the point between them.  The result was, that, after a few struggles,
Oliver breathed, sneezed, and proceeded to advertise to the inmates of the workhouse the fact of a new burden having been
imposed  upon the parish, by setting up as loud a cry as could reasonably have been expected from a male infant who had not been
possessed of that very useful appendage, a voice, for a much longer space of time than three minutes and a quarter.
3.6. Опишите интерфейс и функциональные возможности конкорданса AntConc
3.7. Для текста Dreiser.txt подсчитайте количество информации, приходящееся на одно слово. Частотности слов найдите с помощью конкорданса AntConc. 
Запишите ответ на вопрос: Для решения каких лингвистических задач может применяться такой анализ?
___________________________________________________________________

4. Понятие технологии. Классификация технологий.

План ответа  
.
Определение технологии. Бытовые и профессиональные технологии. Специфика информационных технологий. Основные направления информационных технологий. Технологии управления базами данных (database management). Отличие интеллектуального анализа данных (data mining) от обычной обработки данных. Мультимедийные технологии и перспективы их развития. Примеры применения технологий управления базами данных мультимедийных технологий. Определение лингвистических технологий. Основные направления обработки речи и текста.  

Задания и вопросы

4.1. Дайте определения технологий управления базами данных, мультимедийных, лингвистических технологий.
4.2. Приведите примеры применения трёх видов технологий.
4.3. Какое значение имеет интеллектуальный анализ данных? Какова основная проблема такого анализа? 
4.4. По какому критерию различаются технологии обработки текста и речи?
4.5. Опишите основные  направления технологий обработки речи.
4.6. Что лежит в основе разработки технологий обработки речи?
4.7. Опишите функционирование Google Assistant.
4.8. C какой целью используется озвучивание (screen reading) как вид синтеза речи?

 

Источники для подготовки

-  Яцко В.А. Алгоритмы и программы автоматической обработки текста // Вестник Иркутского государственного лингвистического университета. - 2012. - №1. - С. 151-161. URL: https://scinse.donntu.edu.ua/sii/onopko/library/3.pdf .

-  Яцко В.А. Классификация лингвистических технологий // Филологические науки. Вопросы теории и практики. - 2018. № 9. Ч. 1. - С. 193-196.  URL: https://www.gramota.net/materials/2/2018/9-1/43.html 

-  Яцко В.А. Критерии классификации лингвистических технологий // Научно-техническая информация. Сер.2. - 2020. - №. 8.  (Есть в библиотеке ХГУ)

__________________________________________________________________________________________


5. Направления технологий обработки текста.


План ответа


Критерии классификации технологий обработки текста; виды информации, выдаваемой пользователю, категории пользователей. Универсальные, специальные, специализированные технологии. Паритивные, интеллектуальные, презентативные технологии. Направления машинного перевода, концепция translation memory; причины ошибок систем автоматического перевода. Классификация текстовых документов. Фильтрация спама и распознавание плагиата как бинарные виды классификации. Значение тематической категоризации и распознавания жанра. Авторская атрибуция текстов. Направления интеллектуального анализа текстов. Реферирование и информационный поиск как презентативные технологии. Документальный и фактографический поиск. Основная проблема автоматической обработки текстов, не позволяющая полностью вытеснить ручные методы.


Задания и вопросы


5.1.  По каким критериям выделяются основные направления обработки текстовых документов? Дайте определения презентативных, интеллектуальных, паритивных технологий.

5.2.  Объясните причины ошибок, допускаемых системами автоматического перевода, приведите примеры. В чём смысл концепции переводческой памяти?

5.3.   Дайте общее определение автоматической классификации текстовых документов. Опишите основные направления классификации Опишите основные направления классификации и их  значение для различных видов деятельности.

5.4.  Чем отличаются технологии text mining? Какие термины включает онтология?  В предложении The rest of iOS remains mostly unchanged with some minor UI improvements across different system apps. найдите параметрический, синтаксический, семантический термины. Какую функцию выполняет синтаксический термин? Какую фразу выдаст система пользователю? 

5.5.  Опишите основные отличия документального и фактографического поиска. Приведите пример фактографического поиска. В каком направлении компьютерной лингвистики и для чего используется этот вид поиска? 


Источники для подготовки


-  Яцко В.А. Система автоматического анализа мнений покупателей  //  Прикладная информатика. – 2015. URL: https://cyberleninka.ru/article/n/sistema-avtomaticheskogo-analiza-mneniy-pokupateley

- Яцко В.А. Создание онтологии: параметрические термины // Символ науки. -2016. - URL: https://cyberleninka.ru/article/n/sozdanie-ontologii-parametricheskie-terminy

- Яцко В.А., Яцко Т.С. Особенности структуры лингвистической онтологии // Научно-техническая информация. Серия 2. – 2017. - № 6 (Есть в библиотеке ХГУ).



6. Лингвистическое программное обеспечение


План ответа 

Понятие алгоритма и программы; языки программирования для создания лингвистического ПО. Классификация лингвистических программ по уровню системы языка, к которому относится обрабатываемая единица. Программы и алгоритмы, соотносимые с графемическим, морфологическим, лексическим уровнями. Особенности стемминга; понятие мощности стеммера; ошибки, допускаемые стеммерами: недостаточное и избыточное стеммирование. Различие между понятиям стеммы и основы слова. 


Вопросы и задания 

6.1. Назовите языки программирования, которые используются для создания лингвистического программного обеспечения. Опишите их особенности. 

6.2. С какой целью используются сканеры на графемическом уровне?

6.3. Какова цель стемминга и его значение для различных направлений лингвистической информатики?

6.3. Чем отличается стемминг от лемматизации?

6.4. Как определяется мощность стеммера? Назовите основные стеммеры для английского языка. Почему Y-Stemmer мощнее других стеммеров?

6.5. Приведите примеры ошибок недостаточного и избыточного стеммирования. 


7. Взвешивание терминов.

План ответа

Понятие весового коэффициента. Основные подходы к взвешиванию терминов. Интертекстуальное и интратекстуальное взвешивание. Метод TF*IDF, его особенности, достоинства и недостатки. Модификации формулы. Основные функции конкордансов как специального программного обеспечения для статистического анализа текстов.

 

Задания

7.1. Выполните задание по TF*IDF в файле иллюст.docx. Запишите вывод о различии между классической формулой и её модификациями. n

7.2. Примените формулу для анализа текста news1.txt. , сопоставив его с корпусом в папке newspaper_corpus.

Источники для подготовки

- Yatsko V.A. TF*IDF revisited // International journal of computational linguistics and natural language processing. 2013. Vol.2. Issue 6. P.385-387 . – URL: https://docs.google.com/file/d/0B306nMx7wiLyZ0tFelo4MzY5SWc/edit 

- Яцко В.А. Методы генерации словарей // Научно-техническая информация. Сер. 2, Информационные процессы и системы. - 2012. - № 10. - С. 14-20 

 

8. Оценка качества метода TF*IDF

План ответа

Приложение TF*IDF Ranker и его возможности. Оценка качества метода TF*IDF на основе анализа распределения терминов эталонного словаря. Критерии отбора терминов в эталонный словарь. Зависимость от жанрово-стилистического состава корпусов.

Задание

Используя файл refdict.dox, оцените качество взвешивания по классической и модифицированной формуле TF*IDF. Для этого подсчитайте количество вхождений стемм из эталонного словаря в первые 30 слов, полученных с помощью TF*IDF Ranker. За каждое вхождение начисляйте соответствующий коэффициент, затем суммируйте коэффициенты. К сумме добавьте коэффициенты за совпадение рангов. Сделайте запись, указывающую на сколько (в проценах) эффективнее модифицированная формула.

Источники для подготовки

- Yatsko V.A. TF*IDF revisited // International journal of computational linguistics and natural language processing. 2013. Vol.2. Issue 6. P.385-387 . – URL: https://docs.google.com/file/d/0B306nMx7wiLyZ0tFelo4MzY5SWc/edit 

- Яцко В.А. Методы генерации словарей // Научно-техническая информация. Сер. 2, Информационные процессы и системы. - 2012. - № 10. - С. 14-20 

 

9. Синтаксические парсеры

План ответа

Синтаксический парсер как программное обеспечение для отображения иерархической структуры предложения. LexParser Стэнфордского университета. Использование парсера для интерпретации многозначных предложений. Причины ошибок парсера. Аннотирование и чанкинг как основа функционирования парсера. Схема работы теггера частей речи.

Задания

9.1. Используя LexParser обработайте предложения John saw the student with a telescope и I saw her duck. Как вариант интерпретации выдаёт парсер и почему именно такой?

9.2. Составьте альтернативные схемы предложений, отражающие другую интерпретацию.

9.3. Обработайте с помощью парсера предложения I forced her to duck  и I saw her sing. Какая интерпретация неверна? Почему? 

Источники для подготовки

- Stanford parser. URL: https://nlp.stanford.edu/software/lex-parser.shtml

- Stanford parser FAQ https://nlp.stanford.edu/software/parser-faq.html

10. Автоматический анализ структуры связного текста

План ответа

Понятие разрешения анафоры и ко-референции, выбор стандартного имени. Проблемы, возникающие в процессе разрешения анафоры Логико-семантические связи между предложениями. Концепция У. Манна, ядерные и сателлитные отрезки текста. Программное средство RSTTool и его использование. Построение схемы, отражающей структуру текста.

Задания

10.1. В файле иллюст.docx (см. Материалы практических заданий по ссылке выше) выполните задание на разрешение анафоры, заполните таблицу. Какие проблемы возникают при выполнении работы?

10.2. Ознакомьтесь с логико-семантическими отношениями, выделяемыми в концепции У.Манна, см. файл mann RST.doc. С помощью RSTTool составьте схему текста RST.txt

Источник для подготовки

- INTRO TO RST. -  URL: https://www.sfu.ca/rst/ 

11. Проблемы автоматической классификации текстовых документов.

План ответа

Понятие автоматической классификации текстов. Основные направления классификации; бинарная классификация. Основные этапы классификации: отбор материала; определение подхода: контролируемые, частично-контролируемые, неконтролируемые методы классификации; функциональные и семантические методы; дистантный и словарный подходы; выравнивание документов, выравнивание по нижнему пределу; определение параметров; вычисление индексов и расстояний. Симилирующая и дискриминирующая сила параметров классификации.

Задания

11.1. Для чего используются технологии автоматической классификации текстовых документов?

11.2. В чём существенное различие между дистантным и словарным подходами?

11.3. Каковы требования к эталонному тексту?

11.4. Как выполняется выравнивание по нижнему пределу? Какую проблему решает выравнивание текстов?

11.5. Опишите основные этапы автоматической классификации текстов.

Источники для подготовки

- Яцко В.А. Метод автоматической классификации текстов, основанный на законе Ципфа // Научно-техническая информация. Сер.2 - 2015. - № 5.

- Яцко В.А. Закон Ципфа как показатель эталонного распределения данных // Роль и место информационных технологий в современной науке. – 2016. – с. 48-50. - URL: https://os-russia.com/SBORNIKI/KON-129.pdf

 

12. Стоп-слова как параметр классификации текстовых документов

План ответа

Признаки стоп-слов: семантический, статистический, морфологический. Достоинства применения стоп-слов как классификационного параметра. Список К.Фокса. Понятие о законе Ципфа, распределении Ципфа, отклонении от распределения Ципфа. Методика вычисления индексов документов и расстояний на основе отклонения от распределения Ципфа и среднего квадратичного отклонения.

Задания

12.1. Используя тексты Nicolas.txt, Oliver.txt, ManofProperty.txt (эталонный) проведите автоматическую классификацию на основе стоп-слов. Для того с помощью приложения Antconc в каждом тексте найдите распределение стоп-слов, указанных в файле Fox stops. Далее по методике вычислите отклонения и индексы текстов и расстояния между ними. Почему получился неправильный результат?

12.2. Выровняйте тексты, данные в предыдущем задании, по нижнему пределу и вновь вычислите расстояния между ними. Запишите вывод.

12.3. Выполните индивидуальное задание на классификацию, самостоятельно подобрав один эталонный и два входных текста, выровняв из по нижнему пределу.

 

13. Косинусная мера смысловой близости документов

План ответа

Теорема косинусов и её применение для определения смысловой близости документов. Формула вычисления косинусной меры смысловой близости документов; значения числителя и знаменателя. Преимущество косинусной меры и её недостаток в терминах симилирующей и дискриминирующей силы.

Задание

Проведите классификацию на основе косинусной меры смысловой близости. Используйте ранжированные списки в папке cosine, приняв в качестве эталонного manofprstops. Запишите вывод, определив симилирующую и дискриминирующую силу.

Источники для подготовки

- Яцко В.А. Эффективность применения косинусной метрики для определения смысловой близости документов // Грани познания. – 2020. - № 4. – URL: http://grani.vspu.ru/jurnal/74

- Яцко В.А. Особенности вычисления косинусной меры смысловой близости документов // Актуальные вопросы развития теории и практики научных исследований. – 2020. - С. 69-73. - URL:https://os-russia.com/SBORNIKI/KON-312.pdf

 

14. Итеративный пороговый уровень.

План ответа

Понятие уникального значения и итеративного порогового уровня. Метод определения итеративного порогового уровня и его преимущества. Методика классификации на основе данного порогового уровня, отклонений от распределения Ципфа и среднего квадратичного отклонения.

Задания

14.1. Проведите классификацию на основе итеративного порогового уровня: на основе выровненных текстов и на основе невыровненных текстов. Для этого используйте в "Материалах для практических заданий" выровненные тексты Nicolas Nickelby (как эталонный), InChanceryAligned, TheManofProperty. А также ранжированные списки невыровненных текстов в папке cosine.

14.2. Запишите вывод, какой подход к классификации более адекватен в терминах симилирующей и дискриминирующей силы.

Источники для подготовки

- Яцко В.А. Итеративный пороговый уровень и классификация текстовых документов // Наука без границ. – 2020. URL: https://cyberleninka.ru/article/n/iterativnyy-porogovyy-uroven-i-klassifikatsiya-tekstovyh-dokumentov

 

15. Компьютерная лингвистика как научная дисциплина.

План ответа

Соотношение между терминами "компьютерная лингвистика", "лингвистическая информатика", "natural language processing"; текстоматика.  Определение компьютерной лингвистики как научной дисциплины. Особенности эмпирических, теоретических и метанаучных исследований в рамках компьютерной лингвистики. Междисциплинарная сущность компьютерной лингвистики; лингвистические, математические, технические основы. Перспективы развития предметной области.

Задания

15.1. Назовите пакеты для лингвистического программирования на языках Python и  R

15.2. Назовите наиболее распространённые статистические и вероятностно-статистические методы и метрики.

15.3. Каковы причины замедления технологического развития?

15.4. Приведите примеры теоретических и эмпирических исследований.

Источники для подготовки

- Яцко В.А. Компьютерная лингвистика или лингвистическая информатика? // Научно-техническая информация. Сер. 2, Информационные процессы и системы. - 2014. - № 5. - С. 1-10 

- Yatsko V.A. Informatics, information science, and computer science // Scientific and тechnical information processing. - 2018. URL: https://www.researchgate.net/publication/329936460_Informatics_Information_Science_and_Computer_Science

 

16. Лексикографические ресурсы

План ответа

Виды лексикографических ресурсов. Особенности терминологических списков, словарей, терминолого-статистических словарей, тезаурусов, онтологий, аннотированных корпусов. А. Килгариф и лемматизированные и нелемматизированные списки Британского национального корпуса. Тезаурус WordNet 2.1. Corpus of Contemporary American English. Методы автоматической генерации словарей.

16.1. Назовите отличия списков терминов, терминологических словарей, терминолого-статистических словарей. Приведите примеры.

16.2. Какова специфика лингвистических онтологий?

16.3. Приведите пример поиска в тезаурусе WordNet 2.1.

16.4. Каковы возможности и значение для поддержки лингвистических исследований, предоставляемые Corpus of Contemporary American English?

16.5. КАк можно использовать тезаурус для повышения эффективности технологий поиска? 

16.6. Опишите методы автоматической генерации словарей.

Источники для подготовки

- Яцко В.А. Лексикографические ресурсы для автоматической обработки текстов //  Вестник Иркутского государственного лингвистического университета. – 2013. URL: https://cyberleninka.ru/article/n/leksikograficheskie-resursy-dlya-avtomaticheskoy-obrabotki-tekstov

Яцко В.А. Методы генерации словарей // Научно-техническая информация. Сер. 2, Информационные процессы и системы. - 2012. - № 10. - С. 14-20 

 



Desktop Site