NON MULTA, SED MULTUM

Теоретические основы информатики

(материалы для студентов 1 курса ХГУ им. Н.Ф. Каанова)


Вопросы к зачёту


1. Информатика, информационная наука, компьютерная наука.

- Разграничение между информационной и компьютерной науками по объекту исследования. Автоматические, автоматизированные, полуавтоматические, ассистентные системы.

- Разграничение между информационной и компьютерной науками по инженерно-техническим, математическим, лингвистическим основам.

Домашнее задание:


- Подготовьте ответ на первый вопрос зачёта и опишите различия между информационной наукой, компьютерной наукой, информатикой, используя материал статьи https://docs.zoho.com/file/4g9l13e3ee63eed0a49d097f5ed6684575a3c


- Опишите интерфейс и функциональность специализированной базы данных Corpus of Contemporary American English https://corpus.byu.edu/coca/ , выполнив запрос information _nn*


- Опишите интерфейс и функциональность специализированного программного обеспечения AntConc https://docs.zoho.com/file/4g9l1b63f0d79b4074a1aaea6d988f1daa4e1 , обработав текст Dreiser.txt https://docs.zoho.com/file/7jgnge502fbc04b404e308196352be4458c64 


- C помощью системы Google Translate  (https://translate.google.com) переведите на английский предложения:

Учитель поставил двойку. 

Воры вылезли из окна. 
Курица постоянно несёт яйца.
Грузчик несёт шкаф.
Куры несутся и без петуха.
Найдите ошибки в переводе.

Объясните, почему до сих пор ведущее положение в области двуязычного  перевода занимают ручные методы. 
 

2. Интерпретация и подсчёт количества информации  в концепции Хартли.

Формула Хартли. Энтропия и информация, случайные и достоверные события. Понятие логарифма.  Свойства формулы Хартли: аддитивность, монотонность, дифферентность, равновероятность.  


Домашнее задание


- Выучите наизусть описание формулы Хартли и её свойств.

- Опишите методику подсчёта количества информации при условии, что реализуется свойство дифферентности. 

- Опишите методику подсчёта количества информации, содержащейся в некотором тексте, при условии, что известно количество символов алфавита, количество страниц, количество символов алфавита на одной странице. 



3. Формула Шеннона

Формула Шеннона, и её отличия от формулы Хартли. Понятие бита как единицы измерения информации. Статистический параметр Pi, его свойства и формула вычисления. Алгоритм вычислений по формуле Шеннона.  Объёмный подход к определению количества информации в информатике. 


Практические задания
 

1.

- Опишите методику вычисления количества информации, приходящейся на один символ алфавита в некотором тексте. 

- Известно значение статистического параметра Pи сумма частотностей  слов в некотором тексте. Как найти частотность данного слова? 

Известно значение статистического параметра Pи  частотность данного слова. Как найти сумму частотностей всех слов текста?

- Из колоды, в которой 36 карт, вытащили карту красной масти. Какова вероятность того, что следующая вытащенная карта также будет красной масти?

Из колоды, в которой 36 карт, вытащили карту красной масти. Какова вероятность того, что следующая вытащенная карта  будет чёрной масти?

- Опишите методику применения теоремы Шеннона  с целью решения проблем автоматической классификации текстов. 


2. Подсчитайте количество информации на один символ русского алфавита (см  таблицу 1)  по формуле Хартли. Сопоставьте полученную величину с количеством информации, полученной по формуле Шеннона (величина I(A)). Сделайте запись, поясняющую,  насколько одна величина больше другой и почему. 

Таблица 1.  

i Символ P(i)
1 _(пробел) 0,17
2 О 0,071
3 Е 0,07
4 Ё 0,07
5 А 0,052
6 И 0,051
7 T 0,05
8 H 0,05
9 C 0,043
10 P 0,04
11 B 0,035
12 Л 0,033
13 К 0,025
14 М 0,022
15 Д 0,022
16 П 0,021
17 У 0,02
18 Я 0,017
19 Ы 0,016
20 З 0,015
21 Ь 0,014
22 Ъ 0,013
23 Б 0,013
24 Г 0,011
25 Ч 0,011
26 Й 0,01
27 Х 0,008
28 Ж 0,006
29 Ю 0,005
30 Ш 0,004
31 Ц 0,004
32 Щ 0,003
33 Э 0,003
34 Ф 0,002

3.

В  таблице 2 указаны частотности символов русского алфавита в Тексте 1 (см.ниже). 


Таблица 2


56
е43
и 42
т 36
о 31
а25
н25
к24
р 20
в 19
м19
с 16
д13
ы13
л 12
п10
у10
й10
ь8
я 7
г 6
з5
ц5
ч 4
ф4
ж3
б2
ю 2
э2
х2
щ 2
В1
Э1

Текст 1

В статье приводятся убедительные доказательства того, что в немецком языке косвенные падежи, такие как дательный и родительный, требуют эксплицитной морфологической маркировки, в то время как структурные падежи, такие как именительный и винительный, могут не зависеть от морфологических характеристик слова. Этот вывод подтверждается следующими тестами: процедурой изменения функций; нефлективными номинативными группами; связыванием; вторичной предикацией; экстрагированием; опущением темы. 


Найдите величину I(T1), которая равна количеству информации, приходящейся на один символ в Tексте 1.  Сопоставьте величины  I(A) и I(T1). Сделайте запись, поясняющую, насколько одна величина больше другой и почему. 


4. 

Вставьте Текст 1 в ячейку файла MS Excel и подсчитайте количество информации по объёмному подходу, применив функцию ДЛИНБ и найдите величину I(О).  Переведите байты в биты.  Найдите величину I(G), умножив I(T1) на количество символов. Сопоставьте величины I(О) и I(G), сделав запись, поясняющую, насколько одна величина больше другой и почему. 



4. Закон Ципфа. 

Формула и константы закона Ципфа.  Понятие отклонения от закона Ципфа. Применение отклонения от закона Ципфа с целью классификации текстовых документов, дистантный и словарный подходы, векторное моделирование, методы сглаживания разниц размеров текстов. Стоп слова и их признаки, классификация текстов на основе анализа распределений стоп слов. Приложение AntConc и его функциональность. 


Материалы для подготовки 


- Yatsko  V.A. Automatic text classification method based on Zipf's law. 

https://www.researchgate.net/publication/279307622_Automatic_text_classification_method_based_on_Zipf's_law

- Метод автоматической классификации текстов, основанный на законе Ципфа //  Научно-техническая информация. Сер. 2. - 2015. - № 5. - С. 19-24. (Есть в научом читальном зале библиотеки ХГУ). 

- Яцко В.А. История вычислительной техники и информатики. С. 31-33. (Есть в библиотеке ХГУ ). 



5. 

Выполните авторскую атрибуцию, установите, какой из входных  текстов (2.txt, 3.txt) написан тем же автором, что и эталонный текст (R.txt) 

https://docs.zoho.com/file/cjhol72520fca8d5f482c9998202035e8bbcd 

https://docs.zoho.com/file/cjhol4f6e5a10801e41c88232249aeceba7f7 

https://docs.zoho.com/file/cjhol266441cb37f84c0196f95c734bf5ab06 

- Stop words https://docs.zoho.com/file/cnbs6cf5678d993304c69a70e238f06f8c09d 

5.1. На основе отклонений от распределения Ципфа всех слов текстов.

5.2.  На основе уникальных значений и отклонений от распределения Ципфа.

5.3.  На основе вычисления расстояний по косинусу и всех слов текстов.

5.6. На основе теоремы Шеннона и всех слов текстов. 

Сделайте вывод о том, какой метод эффективнее.

Материалы 


- Текст 1 https://docs.zoho.com/file/cjhol72520fca8d5f482c9998202035e8bbcd 

- Текст 2 https://docs.zoho.com/file/cjhol4f6e5a10801e41c88232249aeceba7f7 

- Текст 3 https://docs.zoho.com/file/cjhol266441cb37f84c0196f95c734bf5ab06 

- Stop words https://docs.zoho.com/file/cnbs6cf5678d993304c69a70e238f06f8c09d 

Формулы
- Для выполнения пересечения

ЕСЛИОШИБКА(ВПР(С4;F$4:F$400;1;ЛОЖЬ);"")

С4 – адрес первого стоп слова в эталонном тексте.

F$4:F$400 – диапазон списка стоп слов во входном тексте.

 

Для нахождения значений

ВПР(T4;K$4:L$23594;2;ЛОЖЬ)

T4 – адрес первого стоп слова в пересечении.

K4 – адрес первого слова в списке стоп слов данного текста.

L23594 – адрес последнего значения  в списке значений.




5.  Закон распределения пороговых уровней

Понятие порогового уровня.  Зональный коэффициент и система уравнений для расчёта пороговых уровней . Различия между законом Брэфорда и законом распределения пороговых уровней. Система уравнений и методика зонального анализа (на примере анализа результатов выборов).  Абстрактный и реальный пороговые уровни. 

6.

Примените закон распределения пороговых уровней для анализа результатов выборов. Количество зон = 3. Примените три зональных коэффициента: 2, 1.75, 1.95. Поясните, какой из них даёт более адекватный результат. 

Результаты выборов в Государственную Думу Российской Федерации 4 декабря 2011 г.


Регион% голосов, поданных за партию "Единая Россия"

1  Чеченская Республика99,48
2Республика Мордовия91,6
3Республика Ингушетия91
4Республика Карачаево-Черкесия89,82
5Республика Тува85,29
6Республика Дагестан82,84
7Республика Кабардино-Балкария81,31
8Республика Татарстан77,85
9Ямало-Ненецкий АО71,68
10Республика Башкирия70,5
11Чукотский АО70,32
12Республика Северная Осетия-Алания67,9
13Тамбовская область66,66
14Республика Калмыкия66,1
15Тюменская область65,1
16Саратовская область64,9
17Кемеровская область64,6
18Тульская область61,3
19Республика Адыгея61,09
20Республика Коми58,79
21Астраханская область58,1
22Краснодарский край56,33
23Пензенская область56,3
24Республика Алтай53,33
25Республика Марий Эл52,54
26Белгородская область51,2
27Ростовская область50,22
28Брянская область50,12
29Воронежская область49,54
30Челябинская область49,4
31Ставропольский край49,2
32Республика Якутия49,16
33Республика Бурятия49,02
34Еврейская АО48,1
35Москва46,6
36Курская область45,72
37Камчатский край45,3
38Республика Удмуртия45,09
39Нижегородская область45,05
40Курганская область44,41
41Ульяновская область43,56
42Амурская область43,53
43Республика Чувашия43,46
44Забайкальский край43,28
45Сахалинская область41,91
46Магаданская область41,04
47Ханты-Мансийская АО41,02
48Калужская область40,46
49Липецкая область40,3
50Ивановская область40,14
51Республика Хакасия40,1
52Рязанская область39,82
53Омская область39,61
54Самарская область39,1
55Орловская область38,9
56Тверская область38,44
57Владимирская область38,3
58Хабаровский край38,11
59Томская область37,5
60Алтайский край37,21
61Калининградская область37,07
62Волгоградская область36,77
63Псковская область36,7
64Красноярский край36,67
65Пермский край36,33
66Смоленская область36,23
67Ненецкий АО36,04
68Санкт-Петербург35,47
69Новгородская область35,3
70Иркутская область34,93
71Кировская область34,9
72Оренбургская область34,89
73Новосибирская область33,84
74Ленинградская область33,77
75Вологодская область33,4
76Приморский край33,3
77Свердловская область32,66
78Московская область32,51
79Республика Карелия32,26
80Мурманская область32
81Архангельская область31,81
82Костромская область30,7
83Ярославская область29,04



Материалы для подготовки 


-  Яцко В.А. Интерпретация закона Брэдфорда в терминах геометрической прогрессии // Научно-техническая информация. - 2012. - № 4. - С. 19-23. (Есть в научном читальном зале ХГУ). 

- Яцко В.А. История вычислительной техники и информатики. С. 26-30. (Есть в библиотеке ХГУ ). 

- Yatsko V.A. The interpretation of Bradford's law in terms of geometric progression. 

https://www.researchgate.net/publication/257910431_The_interpretation_of_Bradford's_law_in_terms_of_geometric_progression 



6. Распределение TF*IDF.

Теорема TF*IDF и описываемая закономерность распределения текстовой информации. Достоинства и недостатки классической формулы, размер и жанровый состав корпуса. Различные модификации формулы. Возможности использования формулы с целью информационного поиска и текстовой классификации. Приложение TF*IDF Ranker. 


7.

Вычислите весовые коэффициенты терминов в текстовом документе 1 (Doc 1)

1) по классической формуле,

2) используя общепринятую модификацию,

3) используя модификацию, предложенную В. А. Яцко.


Определите величину N

Определите величину n

Сам документ 1 не учитывается

 

 

Doc 1

Doc 2

Doc 3

Term

Frequency

term

frequency

Term

frequency

 

artificial

2

artificial

3

artificial

0

intelligence

0

intelligence

5

intelligence

5

information

12

information

5

information

0

retrieval

10

retrieval

0

retrieval

0

mock

1

mock

3

mock

0

kenrick

2

kenrick

1

kenrick

0

the

35

the

56

the

42

ETS

19

ETS

0

ETS

0

function

0

function

14

function

0

summary

0

summary

0

summary

25

 

 

 

 

 

Doc 1

 

 

Term

frequency

N

n

TF-IDF weights

(Salton's formula)

TF-IDF weights

(generally accepted modification)

TF-IDF weights

(Yatsko's modification)

 

 

 

 

artificial

 

 

 

 

 

 

information

 

 

 

 

 

 

retrieval

 

 

 

 

 

 

mock

 

 

 

 

 

 

kenrick

 

 

 

 

 

 

the

 

 

 

 

 

 

ETS

 

 

 

 

 

 

 


Проведите взвешивание   терминов в двух других документах по трём формулам.


7.

 Для текста R.txt в MS EXCEL  составьте график, отражающий распределение слов по частотностям. В соответствии с данным графика определите количество зон (величину n ) и дайте интерпретацию с точки зрения второго закона Ципфа.