Информационные технологии в лингвистике

(материалы для студентов 2 курса ХГУ им. Н.Ф. Катанова)


Экзаменационные вопросы


1. Подходы к интерпретации информации.


План ответа на первый вопрос

Интерпретация информации в философии; атрибутивный, функциональный, антропологический подходы. Примеры, иллюстрирующие функциональный и антропологический подходы. Интерпретация информации в семиотике; семантический треугольник Огдена-Ричардса (Charles Ogden, Ivor Richards), понятия денотата, сигнификата, интенсионала и экстенсионала. Примеры, иллюстрирующие понятие экстенсионала. Вероятностный подход к интерпретации информации; теорема Хартли-Шеннона, понятие энтропии и случайного события, формула Хартли (Ralph Hartley) для подсчёта количества информации. Примеры случайных и достоверных событий.


Задания и вопросы


1.1. Подсчитайте количество информации, приходящейся на один символ алфавита, состоящего из 1) 27 символов, 2) 34 символов. Опишите методику подсчёта.

1.2. Подсчитайте количество информации в книге, состоящей из 80 страниц, при условии, что на каждой странице 1500 символов, а в алфавите 27 символов. Опишите методику подсчёта.

1.3. Опишите сущность познавательной деятельности в понятиях антропологического подхода к интерпретации информации.

1.4. Почему функциональный подход к интерпретации информации актуален в наше время?

1.5. Опишите семантический треугольник.

1.6. Чем достоверные события отличаются от случайных?

1.7. Почему формулу Хартли нельзя применить к лингвистическому материалу?

1.8. Просмотрите результаты вычислений логарифмов. Каково значение логарифмирования?


Источники для подготовки

1). Сапрыкин М.Ю., Сапрыкина Н.А. Анализ понятия информации с позиций объектноориентированного подхода // Вестник евразийской науки. 2016. №2 (33). URL: https://cyberleninka.ru/article/n/analiz-ponyatiya-informatsiya-s-pozitsii-obektnoorientirovannogo-podhoda.

2). Как измеряется количество информации? URL: http://book.kbsu.ru/theory/chapter1/1_1_5.html

3). Яцко В.А. История вычислительной техники и информатики. С. 33-35. (Есть в библиотеке ХГУ)

__________________________________________________________________________________________


2. Вероятностный подход к интерпретации информации. Формула Шеннона.


                                    План ответа на второй вопрос


Описание формулы Шеннона (Claude Shannon) . Величина P(i),  вычисление, свойства. Интерпретация i-ой величины при анализе лингвистического материала.  Пример вычисления P(i) величины на лингвистческом материале. Алгоритм вычислений по формуле. Значение формулы для решения лингвистических задач. 


Задания и вопросы


2.1. Из колоды, в которой 36 карт, достали карту красной масти. Какова вероятность того, что следующая карта будет красной масти?

2.2. В некотором тексте термин w1 встречается 126 раз, а термин w2 - 25 раз. Чему будет равно P(w1) и P(w2)?

2.3. Подсчитайте количество информации на один символ русского алфавита (см  таблицу 1)  по формуле Хартли (величина I1) по формуле Шеннона (величина I2). Сделайте запись, поясняющую,  насколько одна величина больше другой и почему. 

2.4.1. Примените формулу Шеннона для английского алфавита (Таблица 2). Найдите величину I3. Сопоставьте с величиной I2. Сделайте запись, объясняющую, какая величина больше и почему.

2.4.2. Выполните тоже самое для английского алфавита (Таблица 2). Найдите величину I4. Сопоставьте с величиной I3. Сделайте запись, объясняющую, какая величина больше и почему.

Таблица 1

i

Символ

P(i)

1

_(пробел)

0,17

2

О

0,071

3

Е

0,07

4

Ё

0,07

5

А

0,052

6

И

0,051

7

T

0,05

8

H

0,05

9

C

0,043

10

P

0,04

11

B

0,035

12

Л

0,033

13

К

0,025

14

М

0,022

15

Д

0,022

16

П

0,021

17

У

0,02

18

Я

0,017

19

Ы

0,016

20

З

0,015

21

Ь

0,014

22

Ъ

0,013

23

Б

0,013

24

Г

0,011

25

Ч

0,011

26

Й

0,01

27

Х

0,008

28

Ж

0,006

29

Ю

0,005

30

Ш

0,004

31

Ц

0,004

32

Щ

0,003

33

Э

0,003

34

Ф

0,002

Таблица 2.

_ 0,14
E 0,11702
A 0,08167
O 0,07507
S 0,06327
N 0,05749
T 0,05139
I 0,04345
H 0,04094
L 0,04025
R 0,03987
D 0,03353
U 0,02758
W 0,0244
M 0,02406
F 0,02228
C 0,02186
G 0,02015
Y 0,01974
P 0,01929
B 0,01492
V 0,00978
K 0,00772
J 0,00153
X 0,0014
Q 0,00095
Z 0,00039

2.5. Подсчитайте количество информации (величина I5), приходящееся на один символ в Text 1 по формуле Шэннона. Для того, чтобы найти частотности воспользуйтесь сервисом https://www.mtholyoke.edu/courses/quenell/s2003/ma139/js/count.html 
Для подсчёта количества пробелов вставьте текст в документ MS Word и найдите разность между количеством знаков с пробелами и без пробелов.

Сопоставьте величины  I5 и I4. Сделайте запись, поясняющую, насколько одна величина больше другой и почему.  

В письменном виде ответьте на вопрос: Для решения каких лингвистических задач может применяться такой анализ? (Подсказка - Conan Doyle)


Text 1

Among other public buildings in a certain town, which for many reasons it will be prudent to refrain from mentioning, and to
which I will assign no fictitious name, there is one anciently common to most towns, great or small: to wit, a workhouse; and
in this workhouse was born; on a day and date which I need not trouble myself to repeat, inasmuch as it can be of no possible
consequence to the reader, in this stage of the business at all events; the item of mortality whose name is prefixed to the head
of this chapter.

For a long time after it was ushered into this world of sorrow and trouble, by the parish surgeon, it remained a matter of
considerable doubt whether the child would survive to bear any name at all; in which case it is somewhat more than probable that
these memoirs would never have appeared; or, if they had, that being comprised within a couple of pages, they would have
possessed the inestimable merit of being the most concise and faithful specimen of biography, extant in the literature of any
age or country. Although I am not disposed to maintain that the being born in a
workhouse, is in itself the most fortunate and enviable circumstance that can possibly befall a human being, I do mean to
say that in this particular instance, it was the best thing for Oliver Twist that could by possibility have occurred.  The fact
is, that there was considerable difficulty in inducing Oliver to take upon himself the office of respiration,-- a troublesome
practice, but one which custom has rendered necessary to our easy existence; and for some time he lay gasping on a little flock
mattress, rather unequally poised between this world and the next: the balance being decidedly in favour of the latter.  Now,
if, during this brief period, Oliver had been surrounded by careful grandmothers, anxious aunts, experienced nurses, and
doctors of profound wisdom, he would most inevitably and indubitably have been killed in no time.  There being nobody by,
however, but a pauper old woman, who was rendered rather misty by an unwonted allowance of beer; and a parish surgeon who did such
matters by contract; Oliver and Nature fought out the point between them.  The result was, that, after a few struggles,
Oliver breathed, sneezed, and proceeded to advertise to the inmates of the workhouse the fact of a new burden having been
imposed  upon the parish, by setting up as loud a cry as could reasonably have been expected from a male infant who had not been
possessed of that very useful appendage, a voice, for a much longer space of time than three minutes and a quarter.
2.6. Опишите интерфейс и функциональные возможности конкорданса AntConc
2.7. Для текста Dreiser.txt подсчитайте количество информации, приходящееся на одно слово. Частотности слов найдите с помощью конкорданса AntConc. 
Запишите ответ на вопрос: Для решения каких лингвистических задач может применяться такой анализ?
___________________________________________________________________

3. Понятие технологии. Классификация технологий.

План ответа на третий вопрос. 
.
Определение технологии. Бытовые и профессиональные технологии. Специфика информационных технологий. Основные направления информационных технологий. Технологии управления базами данных (database management). Отличие интеллектуального анализа данных (data mining) от обычной обработки данных. Мультимедийные технологии и перспективы их развития. Примеры применения технологий управления базами данных мультимедийных технологий. Определение лингвистических технологий. Основные направления обработки речи и текста.  

Задания и вопросы

3.1. Дайте определения технологий управления базами данных, мультимедийных, лингвистических технологий.
3.2. Приведите примеры применения трёх видов технологий.
3.3. Какое значение имеет интеллектуальный анализ данных? Какова основная проблема такого анализа? 
3.4. По какому критерию различаются технологии обработки текста и речи?
3.5. Опишите основные  направления технологий обработки речи.
3.6. Что лежит в основе разработки технологий обработки речи?
3.7. Опишите функционирование Google Assistant.
3.8. C какой целью используется озвучивание (screen reading) как вид синтеза речи?

 

Источники для подготовки

1). Яцко В.А. Алгоритмы и программы автоматической обработки текста // Вестник Иркутского государственного лингвистического университета. - 2012. - №1. - С. 151-161. URL: https://scinse.donntu.edu.ua/sii/onopko/library/3.pdf .

2). Яцко В.А. Классификация лингвистических технологий // Филологические науки. Вопросы теории и практики. - 2018. № 9. Ч. 1. - С. 193-196.  URL: https://www.gramota.net/materials/2/2018/9-1/43.html 

3). Яцко В.А. Критерии классификации лингвистических технологий // Научно-техническая информация. Сер.2. - 2020. - №. 8.  (Есть в библиотеке ХГУ)

__________________________________________________________________________________________


4. Направления технологий обработки текста.


План ответа на четвёртый вопрос.


Критерии классификации технологий обработки текста; виды информации, выдаваемой пользователю. Направления машинного перевода, концепция translation memory; причины ошибок систем автоматического перевода. Классификация текстовых документов. Фильтрация спама и распознавание плагиата как бинарные виды классификации. Значение тематической категоризации и распознавания жанра. Авторская атрибуция текстов. Направления интеллектуального анализа текстов. Реферирование и информационный поиск как презентативные технологии. Документальный и фактографический поиск. Основная проблема автоматической обработки текстов, не позволяющая полностью вытеснить ручные методы.


Задания и вопросы


4.1.  По каким критериям выделяются основные направления обработки текстовых документов? Дайте определения презентативных, интеллектуальных, паритивных технологий.

4.2.  Объясните причины ошибок, допускаемых системами автоматического перевода, приведите примеры. В чём смысл концепции переводческой памяти?

4.3.   Дайте общее определение автоматической классификации текстовых документов. Опишите основные направления классификации Опишите основные направления классификации и их  значение для различных видов деятельности.

4.4.  Чем отличаются технологии text mining? Какие термины включает онтология?  В предложении The rest of iOS remains mostly unchanged with some minor UI improvements across different system apps. найдите параметрический, синтаксический, семантический термины. Какую функцию выполняет синтаксический термин? Какую фразу выдаст система пользователю? 

4.5.  Опишите основные отличия документального и фактографического поиска. Приведите пример фактографического поиска. В каком направлении компьютерной лингвистики и для чего используется этот вид поиска? 


Источники для подготовки


1. Яцко В.А. Система автоматического анализа мнений покупателей  //  Прикладная информатика. – 2015. URL: https://cyberleninka.ru/article/n/sistema-avtomaticheskogo-analiza-mneniy-pokupateley

2. Яцко В.А. Создание онтологии: параметрические термины // Символ науки. -2016. - URL: https://cyberleninka.ru/article/n/sozdanie-ontologii-parametricheskie-terminy

3. Яцко В.А., Яцко Т.С. Особенности структуры лингвистической онтологии // Научно-техническая информация. Серия 2. – 2017. - № 6 (Есть в библиотеке ХГУ).